我今天早上醒来,对我来说是第一次; 我的一个系统已经logging了DRAM ECC error通知。 其中三个,实际上,就我可以告诉完全相同的内存位置(显然,系统实际上并不命名为localhost):
Aug 31 05:00:46 localhost kernel: [719099.816034] [Hardware Error]: CPU:0 MC4_STATUS[-|CE|MiscV|-|AddrV|-|-|CECC]: 0x9c6c40006b080a13 Aug 31 05:00:46 localhost kernel: [719099.816046] [Hardware Error]: MC4_ADDR: 0x0000000641f49d20 Aug 31 05:00:46 localhost kernel: [719099.816051] [Hardware Error]: Northbridge Error (node 0): DRAM ECC error detected on the NB. Aug 31 05:00:46 localhost kernel: [719099.816059] EDAC amd64 MC0: CE ERROR_ADDRESS= 0x641f49d20 Aug 31 05:00:46 localhost kernel: [719099.816070] EDAC MC0: CE page 0x641f49, offset 0xd20, grain 0, syndrome 0x6bd8, row 2, channel 0, label "": amd64_edac Aug 31 05:00:46 localhost kernel: [719099.816075] [Hardware Error]: cache level: L3/GEN, mem/io: MEM, mem-tx: RD, part-proc: RES (no timeout)
在系统时间05:10:46 (719699.8160),然后在05:20:46 (720299.8160),在CPU:0 MC4_STATUS线(状态0xdc6c40006b080813 )上还有一个相同的通知后面跟着一个相同的通知。 到目前为止,系统一直保持稳定,没有进一步的错误logging。 系统活动是正常的,自2014年以来,有问题的系统一直在运行ECC RAM,但从未logging任何ECC错误。
我不会太担心一个可纠正的ECC错误。 几乎正好十分钟(实际上在几微秒之间)logging的错误可能是每十分钟内存在一次擦洗; 不幸的是,在这个特定的系统中,擦洗间隔不作为设置暴露。 但是, 在同一个内存位置 ( CE ERROR_ADDRESS值相同)的三个连续错误确实让我有点担心。
更新:自从我最初发布这个问题,有问题的主机已经logging了几个更多,所有与CE ERROR_ADDRESS相同的值。
我应该如何认真对待? 什么是一个好的回应; 请立即订购更换RAM,并安排尽快安装它,把这只是一个短暂的故障,或脚趾取代RAM,如果再次发生,但没有具体行动呢?
ECC RAM往往被用在关键的服务器上。 系统正在报告硬件故障。 如果它不是一个关键系统,并且你不介意所有的事情都可能破坏,那么确定等着看会发生什么,但是如果你关心的是你的数据,那么RAM的代价将会更大。