短版本:我有一个使用Groundwork / Nagios进行监控的〜400个主机的异构环境。 当前的检查,主机组和服务组已经以有机的,专门的方式组合在一起。 我的任务是重build监视设置。
我以前的演出涉及less于20台机器,没有严格的正常工作时间要求,与Munin监控 – 这是我的经验。 我在基地寻找可以解决这个任务的过程 。
我对于为最终用户服务devise高级端到端检查有一个模糊的概念 – 例如试图login到我们的某个网站的刮板的东西 – 然后有一堆更具体的标准检查设置为相关检查 – 例如检查httpd是否正在运行,主机是否可以通过networking进入堆栈,只有在高级别检查失败时才会运行较低级别的检查,以便在发现根本原因的同时最大限度地减less系统应变。 我也一般在考虑把环境分开,这样团队只能在几个小时之后从生产环境中获取页面,就像那样。
这是理智的吗? 是否有devise监控系统的最佳实践方法? 我相信我有能力从我们目前不太理想的设备转移到更好的devise上,但是我想要一些关于如何devise理想设置的经验丰富的指导。
为了扩大我的意见,并希望给你一些指导,你可能想从凯尔的博客文章 ( 这也是我的devise监控系统的人必读的参考列表),这是一个失败isn通常当有一件事出错的时候 – 这是10件事情出错的时候。
一个体面的监控系统的工作就是在实际上减less你的服务并影响面向客户的东西之前,抓住这10件事情。
下面的内容并不是详尽的或完整的,但是与我的解决scheme的方法非常相似,应该让你朝正确的方向前进:
要弄清楚你想要监视什么,你首先需要考虑什么会导致东西失败。
看看依赖关系并构build一个依赖关系树。
(在你pipe理的数据中心里,你可以尽可能地做到:在我上一份工作中,我们是一家托pipe公司,我们的监控系统与我们的UPS,发电机和冷却系统进行了交谈,使我们掌握最新的状态)
这只剩下select监控软件来实现你的愿景的任务。 这个select应该基于哪个软件包可以让你监控你的理想列表的所有(或大部分),并且实际上会考虑软件包之间的价格差异。