为什么我的服务器意外停机?

我有基于CentOS 5.3的内核2.6.18-128.2.1.el5的服务器。 它工作了近一个月,但本周下降了三次。 我在Nagios看到它,写一封电子邮件来重启服务器。 它工作了12-36小时,然后再次下降。

我查看日志文件。 在/var/log/messages第一个错误发生之前就是这个消息:

 logrotate:ALERTexception退出[1]

第二次从数据中心的系统pipe理员重新启动服务器后给我这个屏幕截图: /var/log/messages中的第三个故障之前是消息:

 Eeek!  page_mapcount(页面)变为负值(-1)

我应该如何调查这个问题?

UPD:

部分memtester输出:

比较OR:FAILURE:0x7e9f90d1!= 0x7e9fd2d1,偏移量为0x06222609。
 FAILURE:0x7e9f90d1!= 0x7e9fd0d1,偏移量为0x06222621。
 FAILURE:0x7e9f90d1!= 0x7e9fd1d1,偏移量为0x06222661。
 FAILURE:0x7e9f90d1!= 0x7e9f92d1,偏移量为0x06222681。
 FAILURE:0x7e9f90d1!= 0x7e9fd0d1,偏移量为0x062226a1。
 FAILURE:0x7e9f90d1!= 0x7e9fd0d1,偏移量为0x062226c1。
 FAILURE:0x7e9f90d1!= 0x7e9f93d1,偏移量为0x062226e9。

这是错误的内存。 谢谢你的帮助!

我的第一个猜测是,Nagios有一个小的内存泄漏,经过几个月的运行内存或交换。 但是,由于机器在同一天崩溃了几次,这表明一个错误的RAM芯片。 我的第一步是做内存testing或者检查坏logging日志(如果你的服务器支持的话)。

我也投票错误的公羊。 我会build议使用memtest86做一个彻底的检查公羊。 另外,房间里的温度是否很好,很酷?

我也投票错误的RAM。 如果因为机器位于远程而无法使用memtest86,则可以尝试使用用户空间工具 – memtester。 它不能很好地工作,但如果他们在那里可能会发现一些内存错误。

简单地说,看起来就像是Nagios一样。 每当它被locking和locking时,它是否一致? 如果是的话,我会问,如果问题是在你设置Nagios的时候开始的。 如果是这种情况,那么你可能想要尝试closuresNagios,看看服务器是否恢复稳定。 如果这样做,那么你已经find了罪魁祸首,需要更近一些,看看Nagios有什么问题。

谷歌或Centos论坛/名单可能是你最好的select。 没有crsah dump会很难确定,所以你应该考虑进行configuration。

您也可以通过Redhat bugzilla进行search。 这看起来是基于你从屏幕截图中得到的一点可能性。