L3caching中的ECC错误 – 是否严重？

在linux服务器上（8x四核AMD 8378），我收到以下错误：

[Hardware Error]: MC4_STATUS[-|CE|MiscV|-|AddrV|CECC]: 0x9c294c00001d018b [Hardware Error]: Northbridge Error (node 4): ECC error in L3 cache tag. [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: SNP [Hardware Error]: Machine check events logged

这在上个月发生了三次，但从未（服务器运行了三年）。

从一个快速的谷歌search，似乎这是一个严重的问题。

但是，供应商支持技术人员说：

我已经看到了这些错误很多次，除非你超频你的CPU – 或者有一个风扇故障或类似的 – 这是不太可能是一个处理器的问题。内核更可能错误地报告错误。

所以 – 这是一个严重的错误，我应该订购新的部件（取代CPU？）或忽略它？

非常感谢。

最佳实践：尽可能保留自己的备件。

对于机器检查exception，这些是由硬件报告的 ; 内核只是把消息传递给你，这样你就可以在硬件问题失控之前采取行动，并导致真正的灾难。

我能够find内核“误报”机器检查exception的唯一实例如下。在这种情况下，这是造成问题的处理器的一个缺陷，而不是内核。

英特尔至强处理器E7系列处理器存在一些问题，其中一些c状态转换会导致从MCE银行6向用户报告错误的可纠正的机器检查exception（MCE）错误。在某些E7处理器家族系统上，这导致了MCE错误的“泛滥”。此修补程序禁用银行6的MCE错误报告。

底线：这听起来像供应商正试图避免更换有缺陷的硬件。

在企业服务器上，我们这样处理：如果错误过多或者每周重复，请让供应商进行更换。事实上，事件监测服务本身触发了这一切。无话可问。

移动到x86我们也得到了关于EDAC / MCE混淆的故事等。如果错误继续，硬件应该被replace。

（与大型太阳能事件相关的可能性也很小，这是可能的，但是PC硬件不稳定，供应商不愿意replace某些东西更为普遍）