我的部门维护6台运行Windows Server 2003和Ubuntu Server的服务器。
我们必须报告和跟踪我们的正常运行时间。 我相信我们必须有95%的正常运行时间,我们没有真正的方法来跟踪和报告这些数据。 目前我们只是用文本文件手动执行此操作,并估计停机时间。
有哪些工具可以帮助完成这项任务,或者您目前如何报告和跟踪服务器正常运行时间?
啊,我最喜欢的话题之一。
首先,您需要定义“正常运行时间”。
你的意思是服务器正在运行? (在这种情况下,只需在脚本中定期查看)。
或者你的意思是应用程序正在运行? (定期连接到应用程序的“主页”,假设它是一个Web应用程序)
或者你的意思是应用程序提供了它应该的业务服务? (在这种情况下,您需要运行某种综合交易。
我认为只有最后一个在任何意义上是正确的。 其他人在技术上更容易做,但并不真正与“这个服务器是否为业务提供价值”相关联。
正如你将会看到,如果你点击我添加的链接,有许多公司正在销售解决scheme,或者你可以推出自己的解决scheme。 我有NetIQ产品的经验,而微软MOM(两人有共同的历史),但我相信其他人也是如此。
当你select一个工具时,考虑如何考虑计划的升级和维护期 – 一种天真的方法将把这些logging为停机时间。
另外,95%是非常低的 – 相当于每天72分钟的停机时间,或者每周超过8小时。 尝试让服务器在每个星期四的整个工作日停止服务,并且我认为您会发现您的SLA实际上比这更苛刻。
我使用的是http://mon.itor.us/ (但现在已经closures了)。
nagios会给你停机报告,并在标准的ubuntu存储库中可用。