在linux服务器上(8x四核AMD 8378),我收到以下错误:
[Hardware Error]: MC4_STATUS[-|CE|MiscV|-|AddrV|CECC]: 0x9c294c00001d018b [Hardware Error]: Northbridge Error (node 4): ECC error in L3 cache tag. [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: SNP [Hardware Error]: Machine check events logged
这在上个月发生了三次,但从未(服务器运行了三年)。
从一个快速的谷歌search,似乎这是一个严重的问题。
但是,供应商支持技术人员说:
我已经看到了这些错误很多次,除非你超频你的CPU – 或者有一个风扇故障或类似的 – 这是不太可能是一个处理器的问题。 内核更可能错误地报告错误。
所以 – 这是一个严重的错误,我应该订购新的部件(取代CPU?)或忽略它?
非常感谢。
最佳实践:尽可能保留自己的备件。
对于机器检查exception,这些是由硬件报告的 ; 内核只是把消息传递给你,这样你就可以在硬件问题失控之前采取行动,并导致真正的灾难。
我能够find内核“误报”机器检查exception的唯一实例如下。 在这种情况下 ,这是造成问题的处理器的一个缺陷,而不是内核。
英特尔至强处理器E7系列处理器存在一些问题,其中一些c状态转换会导致从MCE银行6向用户报告错误的可纠正的机器检查exception(MCE)错误。 在某些E7处理器家族系统上,这导致了MCE错误的“泛滥”。 此修补程序禁用银行6的MCE错误报告。
底线:这听起来像供应商正试图避免更换有缺陷的硬件。
在企业服务器上,我们这样处理:如果错误过多或者每周重复,请让供应商进行更换。 事实上,事件监测服务本身触发了这一切。 无话可问。
移动到x86我们也得到了关于EDAC / MCE混淆的故事等。如果错误继续,硬件应该被replace。
(与大型太阳能事件相关的可能性也很小,这是可能的,但是PC硬件不稳定,供应商不愿意replace某些东西更为普遍)