ECC内存错误导致随机服务器重新启动

我在Supermicro X10SLM-F / Xeon E3-1271 v3上运行ubuntu server 14.04

内存：SuperTalent 32GB DDR3 1600 ECC

大约每4天，Ubuntu上的日志就会显示：

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1 {1}[Hardware Error]: It has been corrected by h/w and requires no further action {1}[Hardware Error]: event severity: corrected {1}[Hardware Error]: Error 0, type: corrected {1}[Hardware Error]: fru_text: CorrectedErr {1}[Hardware Error]: section_type: memory error [Firmware Warn]: error section length is too small

紧接着，服务器以“重新启动”的方式重新启动。

当我查看BIOS事件日志时，我看到：

 DATE TIME ERROR CODE SEVERITY 06/13/15 13:13:38 Smbios 0x02 P1-DIMMB2

而对错误的描述是：

 Single Bit ECC Memory Error

Ubuntu中的ipmitool显示：

 ipmitool sel elist ... ... 1a | 06/13/2015 | 13:13:39 | Memory | Correctable ECC | Asserted | CPU 0 DIMM 8 1b | 06/13/2015 | 13:13:39 | Memory | Uncorrectable ECC | Asserted | CPU 0 DIMM 8

几个问题：

如果ECC内存自行更正，为什么机器会自行重启？
我是否也许在BIOS中缺less一些设置来阻止重新启动？
这显然是一个记忆棒问题，或者这可能是一个插槽问题或CPU问题？
如何阻止服务器重新启动？

谢谢你的任何build议。

系统不应该重新启动可纠正的内存错误。你通过ipmitool sel elist看到更多的信息/模式吗？ BMC看门狗可以重启系统，检查是否通过ipmitool mc watchdog get启用。由于您已经获知了有关内存不良模块位置的信息，请将其更换，如果问题再次出现，说明内存插槽可能存在故障。

X10SLM-F所使用的RAM不在被testing的RAM模块列表中 – 如果有可能，请将“问题”系统中的所有内存条replace为经过超微testing的相同内存条。另外，请检查Ubuntu版本支持的操作系统列表。

与CMOS设置相关，您可以使用Supermicro SUM ，前提是您已经安装了SUM键，然后从所有系统转储BIOS设置，然后使用vimdiff查看定期重新引导的系统是否有任何CMOS参数不同没有的系统。

 sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfgTextFile --file myconf.conf

这是Supermicro的硬件，所以它价格低廉，缺乏戴尔，惠普或IBM的打磨和整合。

ECC RAM是错误纠正，但是有一个门槛可能被超过。有问题的DIMM可能会失败，您应该计划更换它。

您可以尝试通过插槽识别模块并将其更换。由于这种情况发生频率很容易确定问题。

另外，请看这个问题右侧的相关问题。

我已经看到这个板1.02版的同样的问题。我认为它有一个特定的问题。我买了很多SM板，通常都不错。我认为如果所有的DIMM都被填充，那么这块主板就有问题了。例如，我正在使用窗口，并且出现蓝屏。

试试运行16GB（只有2个插槽），我敢打赌你的问题将消失。我知道这不是一个解决scheme，但将有助于诊断奇怪的行为。我甚至把一块板子送回SM，他们说这很好，也许他们没有用4个DIMM进行testing。