nagios check_crash || 如何检测服务器何时崩溃并重新启动?

由于英特尔TCO看门狗,我pipe理的一些服务器现在重新启动内核或硬件崩溃,现在init脚本甚至是'rebootsafe'。 可悲的是,这意味着当机器崩溃时,我不再收到来自nagios的通知,因为在检查触发足够的时间发送通知之前,服务只是备份。

是否有一个可靠的脚本或纳吉奥斯在那里检查,如果说在过去的48小时内机器崩溃说3次,会让我得到通知?

你写一个呢? 一个简单的方法是在脚本中运行uptime运行uptime 。 稍微好一点的方法是添加一个回溯日志文件的时间。 抓取文件中的最后三个条目,并检查自第一个以来的经过时间。

Nagios Exchange上有许多“check_uptime”变体。 这些允许您快速重新启动,而不必将主机检查的max_check_attempts设置为1或2(因此防止误报)。

例如,这个可以通过NRPE运行(使用uptime ),但也可以通过SNMP(Linux,Windows等)进行检查。