什么是devise监控系统的坚实过程?

短版本:我有一个使用Groundwork / Nagios进行监控的〜400个主机的异构环境。 当前的检查,主机组和服务组已经以有机的,专门的方式组合在一起。 我的任务是重build监视设置。

我以前的演出涉及less于20台机器,没有严格的正常工作时间要求,与Munin监控 – 这是我的经验。 我在基地寻找可以解决这个任务的过程

我对于为最终用户服务devise高级端到端检查有一个模糊的概念 – 例如试图login到我们的某个网站的刮板的东西 – 然后有一堆更具体的标准检查设置为相关检查 – 例如检查httpd是否正在运行,主机是否可以通过networking进入堆栈,只有在高级别检查失败时才会运行较低级别的检查,以便在发现根本原因的同时最大限度地减less系统应变。 我也一般在考虑把环境分开,这样团队只能在几个小时之后从生产环境中获取页面,就像那样。

这是理智的吗? 是否有devise监控系统的最佳实践方法? 我相信我有能力从我们目前不太理想的设备转移到更好的devise上,但是我想要一些关于如何devise理想设置的经验丰富的指导。

为了扩大我的意见,并希望给你一些指导,你可能想从凯尔的博客文章 ( 这也是我的devise监控系统的人必读的参考列表),这是一个失败isn通常当有一件事出错的时候 – 这是10件事情出错的时候。
一个体面的监控系统的工作就是在实际上减less你的服务并影响面向客户的东西之前,抓住这10件事情。

下面的内容并不是详尽的或完整的,但是与我的解决scheme的方法非常相似,应该让你朝正确的方向前进:


  1. 要弄清楚你想要监视什么,你首先需要考虑什么会导致东西失败。

    1. 其中一些是常见的
      其中很多都可以从Kyle的post中select,所以我不会列出它们,但是您希望得到关于预失败条件的通知 – 例如RAID5中的一个驱动器出现故障 – 现在就更换它,并避免以后的停机。
    2. 其他则根据您的基础设施/devise而有所不同,并包括对其他服务的依赖
      如果您运行的是数据库支持的网站,并且数据库closures,则您的网站将无法工作
  2. 看看依赖关系并构build一个依赖关系树。
    (在你pipe理的数据中心里,你可以尽可能地做到:在我上一份工作中,我们是一家托pipe公司,我们的监控系统与我们的UPS,发电机和冷却系统进行了交谈,使我们掌握最新的状态)

  3. 有了这些信息,你就可以决定什么可以被主动监控,哪些只能被动回应
    (例如,“networking电缆被拔出”会导致服务器停机,但值得监视交换机端口的状态,还是你想让它成为“停机,我必须去看看”)? 。

这只剩下select监控软件来实现你的愿景的任务。 这个select应该基于哪个软件包可以让你监控你的理想列表的所有(或大部分),并且实际上会考虑软件包之间的价格差异。