Nagios在其标准的使用情况监视器中进行时间点检查:或者是 – 或者不是 – 真的。
像SGI的PCP,HP的MeasureWare和SEC等其他工具可以随时监控一些事情,比如过去五分钟的平均磁盘访问时间,或其他类似的项目。 Nagios有这样的吗? 我已经在运行NDOUtils,这似乎是这样的数据的自然来源。
我想有一些东西会监视和基于使用历史数据的基于时间的检查发出警报。 Nagios有这样的吗?
我使用sar的历史数据编写了一个Nagios 支票插件 ,你可能会感兴趣。即使它对你来说没有用处,你可以很容易地用它作为更复杂的检查的起点。
你说
用法举例:CPU负载超过95%10分钟,产生告警。
但是NAGIOS已经这样做了。 例如,如果您不想在30分钟内知道问题,请尝试(在服务定义中)
max_check_attempts 6 retry_interval 5
这将导致即使在软错误发生后每隔五分钟检查一次服务,但是不要去努力 – 通知 – 直到第六次连续的软错误(6 * 5分钟= 30分钟)。
如果这不是你想要的,你能解释它是如何不足的吗?
编辑 :你注意到这对你有用,但是它不能处理更复杂的判断问题(例如foo在前30分钟的60%以上超过80%)。
这是真的,但是根据我部署NAGIOS的经验,我做了相当多的事情,很less有人真的需要知道类似的东西。 他们可能想要知道,但是当他们被迫时,他们通常没有工程需求。 在这些情况下,“否”是正确的答案。 监控工具是关键的业务,并用大量的愚蠢的我想要一个小马testing,使一些副总裁洗衣快乐是错误的事情。
在奇怪的情况下,他们确实需要巴洛克风格的东西,把它放在插件里好多了。 例如,我为客户做了一些工作,让他们知道任何给定的NetApp卷上的快照有多大,这很好。 然后出现一个合理的工程要求,检查给定的一组卷中最年轻的快照中最老的成员年龄小于给定的限制(你可能想要阅读几次!)。 根据多个“快照时代”插件的结果,我可能已经将NAGIOS折磨为评估标准,但从长远来看,写一个插件可以自行追踪和评估这一个复杂的标准。
所以我会告诉你:要小心评估奇怪的标准是否有良好的工程需求。 在less数情况下,编写自己的插件来跟踪它。
你有没有考虑使用opsview或groundwork ?
是。 这个东西叫做http://www.pnp4nagios.org/
它允许您收集使用Nagios中调用的“性能数据”,以便使用RRD对这些数据进行绘制。
用Nagios的方式,Icinga可以是有趣的(这是一个Nagios叉子)。
另一个有趣的事情是http://collectd.org它与nagios没有任何关系,但是你可以定义临界值并从Nagios检查这个条件。
UPDATE
对于CPU超过95%,您可以进行检查以检查CPU负载,并每十分钟进行一次检查。
自从我研究这个软件以来,它已经有好几年了,但是Cacti有一个叫做“thold”之类的门槛的插件。