有没有可以做到这一点的插件或设施在nagios? 例如:CPU负载在2秒内上升到80%不成问题。 如果至less在5分钟内保持在80%++以上,我想得到警报。 可能吗??
虽然服务没问题,但Nagios每check_interval分钟检查服务(嗯,技术上说, interval_length ,但通常是一分钟)。 当服务检查失败时,Nagios将开始每retry_interval分钟检查服务,并且只会在服务保持失败状态以进行max_check_attempts检查时发送警报。 有关所有这些的详细信息,请参阅文档 。
考虑到这一点,您可以使retry_interval大,或者设置max_check_attempts大,或者两者都max_check_attempts大,以在报告错误之前增加服务必须处于失败状态的时间。
所以,如果你想要一个警报只有在一个服务失败超过五分钟,你可以设置retry_interval为1和max_check_attempts为5.请注意,默认值是(我认为) retry_interval = 1和max_check_attempts = 3。
你总是可以编写你自己的支票。 比如你可以在cron上运行sar ,你自定义的nagios检查控制sar最后30分钟的样本。