解释坏DIMM的mcelog输出

我在没有物理访问权限的计算机上收到mcelog错误stream。 这似乎是一个糟糕的DIMM,但我很难确定究竟哪一个。

mcelog输出看起来像

Hardware event. This is not a software error. MCE 0 CPU 1 BANK 5 MISC 21402a2a86 ADDR a8c35dcc0 TIME 1452026764 Tue Jan 5 12:46:04 2016 MCG status: MCi status: Error overflow Corrected error MCi_MISC register valid MCi_ADDR register valid MCA: MEMORY CONTROLLER RD_CHANNEL3_ERR Transaction: Memory read error STATUS cc0000c000010093 MCGSTATUS 0 MCGCAP 1000c14 APICID 20 SOCKETID 1 CPUID Vendor Intel Family 6 Model 45 Hardware event. This is not a software error. MCE 1 CPU 1 BANK 11 MISC 90840000000208c ADDR a089ddac0 TIME 1452026764 Tue Jan 5 12:46:04 2016 MCG status: MCi status: Corrected error MCi_MISC register valid MCi_ADDR register valid MCA: MEMORY CONTROLLER MS_CHANNEL3_ERR Transaction: Memory scrubbing error STATUS 8c000050000800c3 MCGSTATUS 0 MCGCAP 1000c14 APICID 20 SOCKETID 1 CPUID Vendor Intel Family 6 Model 45 

我的输出和mcelog文档之间有很多不一致之处。 我的第一个问题是,有2个8核Xeon,通常我会认为它们编号为0和1.但是,我读过的一些post表明,“第一”CPU可能被标记为mcelog CPU 0-7 ,而“第二”作为CPU 8-15。

第二个问题是我无法弄清楚BANK 5是什么意思。 它不是DIMM插槽的同义词,因为现在我们只使用插槽1-4。 dmidecode有助于在每个DIMM上报告“Bank Locator:Not Specified”。

此外,内存控制器MS_CHANNEL3_ERR让我认为错误是在通道3进来。根据主板图,通道3是插槽4,8和12,这意味着意味着DIMM在4是罪魁祸首,但我我不确定如何validation。

我已经用–dmi开关尝试了mcelog,但是失败并且build议和更新。 这台机器已经过时了(Ubuntu 12.04,甚至不是该版本的最新软件包),但是更新它会打开另一个蠕虫。 我想在尝试其他任何东西之前解决这个内存问题。

我非常感谢在解释这个问题方面提供任何帮助,并且在我派出一个人到数据中心之前找出要替代的东西。

我从来没有find明确的mcelog数据解释,但我最好的猜测是,我想我应该后续跟进。

  • 我假定CPU 1是指第二个CPU,在主板图上有助于标记为2。
  • 我假设MEMORY CONTROLLER MS_CHANNEL3_ERR指示该CPU的内存控制器上的通道3。 如上所述,该通道控制插槽4,8和12,只有插槽4有一个芯片。
  • 我忽略了一切。

我有人换掉了这个DIMM,然后! 没有更多的机器检查错误的stream。