我在Supermicro X10SLM-F / Xeon E3-1271 v3上运行ubuntu server 14.04
内存:SuperTalent 32GB DDR3 1600 ECC
大约每4天,Ubuntu上的日志就会显示:
{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1 {1}[Hardware Error]: It has been corrected by h/w and requires no further action {1}[Hardware Error]: event severity: corrected {1}[Hardware Error]: Error 0, type: corrected {1}[Hardware Error]: fru_text: CorrectedErr {1}[Hardware Error]: section_type: memory error [Firmware Warn]: error section length is too small
紧接着,服务器以“重新启动”的方式重新启动。
当我查看BIOS事件日志时,我看到:
DATE TIME ERROR CODE SEVERITY 06/13/15 13:13:38 Smbios 0x02 P1-DIMMB2
而对错误的描述是:
Single Bit ECC Memory Error
Ubuntu中的ipmitool显示:
ipmitool sel elist ... ... 1a | 06/13/2015 | 13:13:39 | Memory | Correctable ECC | Asserted | CPU 0 DIMM 8 1b | 06/13/2015 | 13:13:39 | Memory | Uncorrectable ECC | Asserted | CPU 0 DIMM 8
几个问题:
如果ECC内存自行更正,为什么机器会自行重启?
我是否也许在BIOS中缺less一些设置来阻止重新启动?
这显然是一个记忆棒问题,或者这可能是一个插槽问题或CPU问题?
如何阻止服务器重新启动?
谢谢你的任何build议。
系统不应该重新启动可纠正的内存错误。 你通过ipmitool sel elist看到更多的信息/模式吗? BMC看门狗可以重启系统,检查是否通过ipmitool mc watchdog get启用。 由于您已经获知了有关内存不良模块位置的信息,请将其更换,如果问题再次出现,说明内存插槽可能存在故障。
X10SLM-F所使用的RAM不在被testing的RAM模块列表中 – 如果有可能,请将“问题”系统中的所有内存条replace为经过超微testing的相同内存条。 另外,请检查Ubuntu版本支持的操作系统列表。
与CMOS设置相关,您可以使用Supermicro SUM ,前提是您已经安装了SUM键,然后从所有系统转储BIOS设置,然后使用vimdiff查看定期重新引导的系统是否有任何CMOS参数不同没有的系统。
sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfgTextFile --file myconf.conf
这是Supermicro的硬件,所以它价格低廉,缺乏戴尔,惠普或IBM的打磨和整合。
ECC RAM是错误纠正,但是有一个门槛可能被超过。 有问题的DIMM可能会失败,您应该计划更换它。
您可以尝试通过插槽识别模块并将其更换。 由于这种情况发生频率很容易确定问题。
另外,请看这个问题右侧的相关问题。
我已经看到这个板1.02版的同样的问题。 我认为它有一个特定的问题。 我买了很多SM板,通常都不错。 我认为如果所有的DIMM都被填充,那么这块主板就有问题了。 例如,我正在使用窗口,并且出现蓝屏。
试试运行16GB(只有2个插槽),我敢打赌你的问题将消失。 我知道这不是一个解决scheme,但将有助于诊断奇怪的行为。 我甚至把一块板子送回SM,他们说这很好,也许他们没有用4个DIMM进行testing。