停机时间跟踪 – 服务器,连接和应用程序级别

我期待看看是否有一个很好的“最适合”解决scheme,我被要求提供。

我所在的IT公司是为一家当地企业签约的。 虽然我们一直是长期的合作伙伴,但最近我们已经签署了一份长期的,与这个业务更新的协议。 他们想要的一件事就是停机追踪。

有很多选项用于停机跟踪…足够我想问问专家我最好的select是什么。

我想跟踪__级别的停机时间:

  • 服务器 – 什么时候下降。 为什么。 多久。
  • 连接 – 跟踪ISP,电话,服务器到服务器的连接…服务器运行良好,但“停机时间”是由于有人击中了两个站点之间的线路。
  • 应用程序 – 服务器是好的。 连接很好。 但应用程序停止响应。 我们的服务器上有1到多个应用程序。
  • 也希望跟踪宕机时间的不良/极端滞后。 这包括以上所有。 服务器/连接/应用程序正在运行…但它需要5分钟的页面加载…或打印文档。

我们希望跟踪的一些应用程序是本土化的,可以为应用程序级跟踪停机时间添加testing部件/过程。 一些应用程序是基于Web的,可以使用简单的,定期的网页加载来追踪停机时间……但是我们有许多封闭的应用程序,如果不是简单的不可能的话,要编写testing就会变得棘手。

所以我在想,不幸的是,我将需要一个“简单”的方式来添加或编辑停机统计信息。

给定一组不同的操作系统(Windows,Unix,AIX,DB2),连接和应用程序…什么是一个很好的平台,用于以尽可能自动的方式跟踪这些信息,但是仍然可以在需要时手动编辑…有适当的报告选项。

我正在看Zabbix现在…只是想知道,如果它是远程在我想要/需要的正确领域。

你也可以看看在屏幕上使用图像识别的探针来扩展Nagios,Zabbix,SiteScope(等)… iMacros或茄子也许?

就我个人而言,我喜欢Nagios。 它具有内置的SNMP支持,并可以使用自己的脚本和探测命令进行扩展。 我使用它来进行networking监视,应用程序监视(应用程序有一个应该响应的TCP端口)以及一些通过SNMP在目标机器上公开的定制队列监视(邮件队列大小等)