为什么我的服务器意外停机？

我有基于CentOS 5.3的内核2.6.18-128.2.1.el5的服务器。它工作了近一个月，但本周下降了三次。我在Nagios看到它，写一封电子邮件来重启服务器。它工作了12-36小时，然后再次下降。

我查看日志文件。在/var/log/messages第一个错误发生之前就是这个消息：

 logrotate：ALERTexception退出[1]

第二次从数据中心的系统pipe理员重新启动服务器后给我这个屏幕截图： /var/log/messages中的第三个故障之前是消息：

 Eeek！  page_mapcount（页面）变为负值（-1）

我应该如何调查这个问题？

UPD：

部分memtester输出：

比较OR：FAILURE：0x7e9f90d1！= 0x7e9fd2d1，偏移量为0x06222609。
 FAILURE：0x7e9f90d1！= 0x7e9fd0d1，偏移量为0x06222621。
 FAILURE：0x7e9f90d1！= 0x7e9fd1d1，偏移量为0x06222661。
 FAILURE：0x7e9f90d1！= 0x7e9f92d1，偏移量为0x06222681。
 FAILURE：0x7e9f90d1！= 0x7e9fd0d1，偏移量为0x062226a1。
 FAILURE：0x7e9f90d1！= 0x7e9fd0d1，偏移量为0x062226c1。
 FAILURE：0x7e9f90d1！= 0x7e9f93d1，偏移量为0x062226e9。

这是错误的内存。谢谢你的帮助！

我的第一个猜测是，Nagios有一个小的内存泄漏，经过几个月的运行内存或交换。但是，由于机器在同一天崩溃了几次，这表明一个错误的RAM芯片。我的第一步是做内存testing或者检查坏logging日志（如果你的服务器支持的话）。

我也投票错误的公羊。我会build议使用memtest86做一个彻底的检查公羊。另外，房间里的温度是否很好，很酷？

我也投票错误的RAM。如果因为机器位于远程而无法使用memtest86，则可以尝试使用用户空间工具 – memtester。它不能很好地工作，但如果他们在那里可能会发现一些内存错误。

简单地说，看起来就像是Nagios一样。每当它被locking和locking时，它是否一致？如果是的话，我会问，如果问题是在你设置Nagios的时候开始的。如果是这种情况，那么你可能想要尝试closuresNagios，看看服务器是否恢复稳定。如果这样做，那么你已经find了罪魁祸首，需要更近一些，看看Nagios有什么问题。

谷歌或Centos论坛/名单可能是你最好的select。没有crsah dump会很难确定，所以你应该考虑进行configuration。

您也可以通过Redhat bugzilla进行search。这看起来是基于你从屏幕截图中得到的一点可能性。