什么是devise监控系统的坚实过程？

短版本：我有一个使用Groundwork / Nagios进行监控的〜400个主机的异构环境。当前的检查，主机组和服务组已经以有机的，专门的方式组合在一起。我的任务是重build监视设置。

我以前的演出涉及less于20台机器，没有严格的正常工作时间要求，与Munin监控 – 这是我的经验。我在基地寻找可以解决这个任务的过程。

我对于为最终用户服务devise高级端到端检查有一个模糊的概念 – 例如试图login到我们的某个网站的刮板的东西 – 然后有一堆更具体的标准检查设置为相关检查 – 例如检查httpd是否正在运行，主机是否可以通过networking进入堆栈，只有在高级别检查失败时才会运行较低级别的检查，以便在发现根本原因的同时最大限度地减less系统应变。我也一般在考虑把环境分开，这样团队只能在几个小时之后从生产环境中获取页面，就像那样。

这是理智的吗？是否有devise监控系统的最佳实践方法？我相信我有能力从我们目前不太理想的设备转移到更好的devise上，但是我想要一些关于如何devise理想设置的经验丰富的指导。

为了扩大我的意见，并希望给你一些指导，你可能想从凯尔的博客文章（这也是我的devise监控系统的人必读的参考列表），这是一个失败isn通常当有一件事出错的时候 – 这是10件事情出错的时候。
一个体面的监控系统的工作就是在实际上减less你的服务并影响面向客户的东西之前，抓住这10件事情。

下面的内容并不是详尽的或完整的，但是与我的解决scheme的方法非常相似，应该让你朝正确的方向前进：

要弄清楚你想要监视什么，你首先需要考虑什么会导致东西失败。
1. 其中一些是常见的
  其中很多都可以从Kyle的post中select，所以我不会列出它们，但是您希望得到关于预失败条件的通知 – 例如RAID5中的一个驱动器出现故障 – 现在就更换它，并避免以后的停机。
2. 其他则根据您的基础设施/devise而有所不同，并包括对其他服务的依赖
  如果您运行的是数据库支持的网站，并且数据库closures，则您的网站将无法工作
看看依赖关系并构build一个依赖关系树。
（在你pipe理的数据中心里，你可以尽可能地做到：在我上一份工作中，我们是一家托pipe公司，我们的监控系统与我们的UPS，发电机和冷却系统进行了交谈，使我们掌握最新的状态）
有了这些信息，你就可以决定什么可以被主动监控，哪些只能被动回应
（例如，“networking电缆被拔出”会导致服务器停机，但值得监视交换机端口的状态，还是你想让它成为“停机，我必须去看看”）？。

这只剩下select监控软件来实现你的愿景的任务。这个select应该基于哪个软件包可以让你监控你的理想列表的所有（或大部分），并且实际上会考虑软件包之间的价格差异。