如何知道服务器是否因内存错误而失败

我最近读了@codinghorror关于的这篇文章 ,我想知道我怎么知道我的服务器由于内存错误而失败? 特别是,如何知道这是一个可纠正还是无法纠正的错误,以及发生在哪个DIMM上?

有关存储器/ DIMM错误的主动通知,SNMP陷阱/消息是最好的select。 HP Systems Insight Manager,HP OpenView和Dell OpenManage等产品提供了多种可configuration的规则,可将SNMP消息转发到电子邮件/短信/传呼机,让您准确了解何时发生内存错误或降级。

如果您的服务器性能不错,则它具有BIOS和BMC组合,可以跟踪这些错误并将其logging在IPMI中,以便您可以看到它们。 通常情况下,服务器将因无法纠正的ECC错误而暂停,BIOS将接pipeSMI中断并将其logging在BMC中。 然后,它恢复到操作系统,没有比正常重启更好的操作系统(有时可能杀死一个进程并继续)。 IPMI SEL日志应该是ECC错误的标志。

如果你的服务器没有一个好的BMC / BIOS,你可以使用加载的内核崩溃,主机内核将跳转到内核,并且可以logging一个完整的堆栈跟踪和dmesg日志以便稍后检查以获取这个信息。 它将用粗体字“HARDWARE ERROR”logging在崩溃内核的dmesg中。

只要使用memtest! 它会告诉你到底哪个DIMM有问题。 http://www.memtest86.com/

检查服务器自己的诊断。 正如你已经告诉我们的服务器,没有什么可以给我一个详细的答案。