“英特尔QPI物理层检测到QPI带内重置但中止初始化”

我有一个Linux服务器,logging了以下mcelog错误:

Hardware event. This is not a software error. MCE 0 CPU 0 BANK 20 MISC 800000 TIME 1476167381 Tue Oct 11 06:29:41 2016 MCG status: MCi status: Corrected error MCi_MISC register valid MCA: BUS error: 0 0 Level-3 Generic Generic Other-transaction Request-did-not-timeout QPI: Intel QPI physical layer detected a QPI in-band reset but aborted initialization STATUS 8800004000200e0f MCGSTATUS 0 MCGCAP 7000c16 APICID 0 SOCKETID 0 CPUID Vendor Intel Family 6 Model 63 

我可以在英特尔系统编程文档中find这个错误的参考,并在github上监控代码,但没有任何解释原因,影响和build议的操作。 我已阅读了最新的微码更新说明,看看是否提到了,但是找不到任何东西。

这个错误可能是一种“宇宙辐射型”的一次性或非事件性的忽略,但任何人都可以用一些真实世界的系统pipe理员级的指导来阐述?

谢谢

我认为这是一对E5-2640v4处理器(最终的v#)。

您需要检查处理器勘误表(search您的特定处理器的“规格更新”文档),因为在许多处理器型号上有关于QPI问题的几个勘误表…

好的: http : //www.intel.com/content/dam/www/public/us/en/documents/specification-updates/xeon-e5-v4-spec-update.pdf没有列出任何可能导致即QPI的行为。 您可能有硬件缺陷,或者遭受了不公开的勘误(比您想象的更为常见)。

但是,Supermicro绝对不能保持BIOS的最新状态(他们仍然有关于从不更新BIOS的说法),所以我们可以放心地认为它会有过时的平台固件套件组件,例如微码更新和平台设置字节码。

所以,你仍然可以希望固件更新会有所帮助。 正如Supermicro预期的那样,即使是最新的BIOS版本,微码更新也太旧,低于运行Linux时推荐使用的最低版本(至less需要版本0x0b00001d,从2016-06-06开始)。 请为您的发行版安装微码更新包(必须基于英特尔版本20160714或更高版本),这可能会有所帮助。

由于超微支持通常相当擅长解决他们对服务器/工作站固件pipe理生命周期的玩笑造成的问题。 向他们直接报告问题,并请求更新固件(处理器微码,芯片组,ME / AMT / TPM固件和平台设置组件)的beta BIOS。 不过,如果他们认为它更可能是一个硬件缺陷,他们可能会告诉你RMA董事会。