L3caching中的ECC错误 – 是否严重?

linux服务器上(8x四核AMD 8378),我收到以下错误:

[Hardware Error]: MC4_STATUS[-|CE|MiscV|-|AddrV|CECC]: 0x9c294c00001d018b [Hardware Error]: Northbridge Error (node 4): ECC error in L3 cache tag. [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: SNP [Hardware Error]: Machine check events logged 

这在上个月发生了三次,但从未(服务器运行了三年)。

从一个快速的谷歌search,似乎这是一个严重的问题。

但是,供应商支持技术人员说:

我已经看到了这些错误很多次,除非你超频你的CPU – 或者有一个风扇故障或类似的 – 这是不太可能是一个处理器的问题。 内核更可能错误地报告错误。

所以 – 这是一个严重的错误,我应该订购新的部件(取代CPU?)或忽略它?

非常感谢。

最佳实践:尽可能保留自己的备件。

对于机器检查exception,这些是由硬件报告 ; 内核只是把消息传递给你,这样你就可以在硬件问题失控之前采取行动,并导致真正的灾难。

我能够find内核“误报”机器检查exception的唯一实例如下。 在这种情况下 ,这是造成问题的处理器的一个缺陷,而不是内核。

英特尔至强处理器E7系列处理器存在一些问题,其中一些c状态转换会导致从MCE银行6向用户报告错误的可纠正的机器检查exception(MCE)错误。 在某些E7处理器家族系统上,这导致了MCE错误的“泛滥”。 此修补程序禁用银行6的MCE错误报告。

底线:这听起来像供应商正试图避免更换有缺陷的硬件。

在企业服务器上,我们这样处理:如果错误过多或者每周重复,请让供应商进行更换。 事实上,事件监测服务本身触发了这一切。 无话可问。

移动到x86我们也得到了关于EDAC / MCE混淆的故事等。如果错误继续,硬件应该被replace。

(与大型太阳能事件相关的可能性也很小,这是可能的,但是PC硬件不稳定,供应商不愿意replace某些东西更为普遍)