为了响应同一内存位置重复的DRAM ECC错误通知该怎么办？

我今天早上醒来，对我来说是第一次; 我的一个系统已经logging了DRAM ECC error通知。其中三个，实际上，就我可以告诉完全相同的内存位置（显然，系统实际上并不命名为localhost）：

 Aug 31 05:00:46 localhost kernel: [719099.816034] [Hardware Error]: CPU:0 MC4_STATUS[-|CE|MiscV|-|AddrV|-|-|CECC]: 0x9c6c40006b080a13 Aug 31 05:00:46 localhost kernel: [719099.816046] [Hardware Error]: MC4_ADDR: 0x0000000641f49d20 Aug 31 05:00:46 localhost kernel: [719099.816051] [Hardware Error]: Northbridge Error (node 0): DRAM ECC error detected on the NB. Aug 31 05:00:46 localhost kernel: [719099.816059] EDAC amd64 MC0: CE ERROR_ADDRESS= 0x641f49d20 Aug 31 05:00:46 localhost kernel: [719099.816070] EDAC MC0: CE page 0x641f49, offset 0xd20, grain 0, syndrome 0x6bd8, row 2, channel 0, label "": amd64_edac Aug 31 05:00:46 localhost kernel: [719099.816075] [Hardware Error]: cache level: L3/GEN, mem/io: MEM, mem-tx: RD, part-proc: RES (no timeout)

在系统时间05:10:46 （719699.8160），然后在05:20:46 （720299.8160），在CPU:0 MC4_STATUS线（状态0xdc6c40006b080813 ）上还有一个相同的通知后面跟着一个相同的通知。到目前为止，系统一直保持稳定，没有进一步的错误logging。系统活动是正常的，自2014年以来，有问题的系统一直在运行ECC RAM，但从未logging任何ECC错误。

我不会太担心一个可纠正的ECC错误。几乎正好十分钟（实际上在几微秒之间）logging的错误可能是每十分钟内存在一次擦洗; 不幸的是，在这个特定的系统中，擦洗间隔不作为设置暴露。但是， 在同一个内存位置 （ CE ERROR_ADDRESS值相同）的三个连续错误确实让我有点担心。

更新：自从我最初发布这个问题，有问题的主机已经logging了几个更多，所有与CE ERROR_ADDRESS相同的值。

我应该如何认真对待？ 什么是一个好的回应; 请立即订购更换RAM，并安排尽快安装它，把这只是一个短暂的故障，或脚趾取代RAM，如果再次发生，但没有具体行动呢？

ECC RAM往往被用在关键的服务器上。系统正在报告硬件故障。如果它不是一个关键系统，并且你不介意所有的事情都可能破坏，那么确定等着看会发生什么，但是如果你关心的是你的数据，那么RAM的代价将会更大。

我build议运行memtest86 +

http://www.memtest.org

它也包含在一些发行版中作为标准包。

它可能会确认您怀疑有故障的内存模块。