停机时间跟踪 – 服务器，连接和应用程序级别

我期待看看是否有一个很好的“最适合”解决scheme，我被要求提供。

我所在的IT公司是为一家当地企业签约的。虽然我们一直是长期的合作伙伴，但最近我们已经签署了一份长期的，与这个业务更新的协议。他们想要的一件事就是停机追踪。

有很多选项用于停机跟踪…足够我想问问专家我最好的select是什么。

我想跟踪__级别的停机时间：

我们希望跟踪的一些应用程序是本土化的，可以为应用程序级跟踪停机时间添加testing部件/过程。一些应用程序是基于Web的，可以使用简单的，定期的网页加载来追踪停机时间……但是我们有许多封闭的应用程序，如果不是简单的不可能的话，要编写testing就会变得棘手。

所以我在想，不幸的是，我将需要一个“简单”的方式来添加或编辑停机统计信息。

给定一组不同的操作系统（Windows，Unix，AIX，DB2），连接和应用程序…什么是一个很好的平台，用于以尽可能自动的方式跟踪这些信息，但是仍然可以在需要时手动编辑…有适当的报告选项。

我正在看Zabbix现在…只是想知道，如果它是远程在我想要/需要的正确领域。

你也可以看看在屏幕上使用图像识别的探针来扩展Nagios，Zabbix，SiteScope（等）… iMacros或茄子也许？

就我个人而言，我喜欢Nagios。它具有内置的SNMP支持，并可以使用自己的脚本和探测命令进行扩展。我使用它来进行networking监视，应用程序监视（应用程序有一个应该响应的TCP端口）以及一些通过SNMP在目标机器上公开的定制队列监视（邮件队列大小等）