$ sudo tail /var/log/messages Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1) Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1) Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1) Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1) Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1) Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1) Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1) Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1) Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1) Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1)
正如你所看到的,这是以惊人的速度logging,但我不知道EDAC。 从我的理解来看,这可能表明了一个错误的内存条,这似乎有可能吗?
我知道这是一点点去,我还能做些什么来阐明这一点? 这是一个活的服务器,所以我无法重新启动它,或者轻易忘记。
我希望我的服务器的ECC芯片得到我正在运行的EDAC代码的支持! 尝试使用dmidecode -t memory来查看您拥有的ECC硬件。
在您的日志中,您将收到来自ECC芯片的通知; 如果你的芯片还没有被支持(像我的!),你会得到安静的ECC更正。 在你的情况下,ECC纠正发生,你也得到通知,因为你有支持。
我会先去改变记忆棒。 另一方面,您可能有错误的通道或处理器内核故障。 我曾经用memtest86.org诊断出过这样的问题(memtest86最初支持SMP,请试试memtest86 +)。
在BIOS中禁用ECC,使用软盘/ USB记忆棒启动memtest86,看看是否有一堆地址被标记,如果是这样的话,可能是内存通道问题。