我目前正在运行一个Nagios实例。 有时,我得到关于超时的错误警报 – 例如,它说某个服务器上的HTTP已closures,但是几秒钟后在浏览器中打开它时,它会加载得很快,而且一般情况下没有任何跟踪的一个错误。
我能做些什么来减less这种误报?
我猜测这是因为我的监控服务器上存在暂时的networking问题。 我想在另一个networking上设置另一个监视服务器将会大有帮助,但是如何将其插入Nagios?
Nagios是否完全可能,还是必须切换到另一个监控系统? 我喜欢我的configuration,如果可能的话,我想留在Nagios或兼容的东西(Icinga?)
提高警报的阈值。 例如,1次故障后不要报警。 在3次故障后发出警报,并在重新检查之间保持一段时间(1分钟,2分钟)。 这意味着,如果您的监测服务器出现“暂时性networking问题”,您将在4-5分钟内收到通知。
提高警报的阈值。 事实上,从logging交易时间的脚本中进行这种监控,向Nagios发送通知,并定期分析其最近周转时间的日志,以便只有在发生恶化的趋势时才发送警报。
这使您可以将阈值设置得更高,以便在每次需要太长时间的事务处理时都不会发出警报,但如果移动平均事务处理时间过长,仍会提醒您。 对于一个真正的重大问题,你会慢一点,但是你不会被这么多的错误警报所磨损。
在任何情况下,真正的主要问题是您的错(不是上帝的行为或数据中心操作员),通过自动重新启动和重新启动可以得到更好的处理,因为如果这些问题易于修复,这是解决这些问题的最快方法。 如果他们不容易解决,由较高的阈值造成的延迟几分钟将不会对你如何从问题中恢复真正的区别。
不要害怕尝试阈值。 当您可以响应警报时,尝试使用较低的阈值并查看会发生什么情况。 当你约会的时候碰到门槛,然后做一个检查,看看是否错过了重要的东西。
首先你要跟踪http请求超时的原因。
如果每个服务器有超过50台服务器和超过5个监控值,那么Nagios本身很可能是罪魁祸首。
它为每个监视事件生成一个请求,并产生大量的networking中断。
而不是提高警报阈值,你可以改变http-check-method中的超时值和重试值。