nagios check_crash || 如何检测服务器何时崩溃并重新启动？

由于英特尔TCO看门狗，我pipe理的一些服务器现在重新启动内核或硬件崩溃，现在init脚本甚至是'rebootsafe'。可悲的是，这意味着当机器崩溃时，我不再收到来自nagios的通知，因为在检查触发足够的时间发送通知之前，服务只是备份。

是否有一个可靠的脚本或纳吉奥斯在那里检查，如果说在过去的48小时内机器崩溃说3次，会让我得到通知？

你写一个呢？一个简单的方法是在脚本中运行uptime运行uptime 。稍微好一点的方法是添加一个回溯日志文件的时间。抓取文件中的最后三个条目，并检查自第一个以来的经过时间。

Nagios Exchange上有许多“check_uptime”变体。这些允许您快速重新启动，而不必将主机检查的max_check_attempts设置为1或2（因此防止误报）。

例如，这个可以通过NRPE运行（使用uptime ），但也可以通过SNMP（Linux，Windows等）进行检查。