在Centos7 Supermicro Server上多核心超载100％以上

我在一个超微型H8QG6板上运行Centos 7（3.10.0-514.26.2.el7.x86_64），带有4个AMD 6276 CPU（16个内核），共64个内核。我用它来进行科学计算，通常情况下一切都很顺利，就像htop的第一张图片一样。然后，突然间，htop开始报告1000％以上的单个CPU使用率，就像在第二张图像中一样，而且计算机几乎没有响应。顺便说一句，几乎每一个过程似乎超载的cpus：甚至htop本身报告1600％的负载！与此同时，这些错误出现在journalctl： perf: interrupt took too long (3973 > 3883), lowering kernel.perf_event_max_sample_rate to 50000 kernel: IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 52, got netfn 5 cmd 2d kernel: IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 52, got netfn 5 cmd 2 kernel: IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 37, got netfn 7 cmd 52 kernel: IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 52, got netfn 7 cmd 37但我不能确定他们是否是一个症状或奇怪行为的原因。有谁知道发生了什么？非常感谢！

更新：我安装了ipmitool并启动了ipmievd守护进程。一旦问题出现，journalctl中将显示以下内容：

ipmievd[7567]: Memory sensor - Correctable ECC (@DIMMD1(CPU3))

问题是否可能与有问题的内存模块有关？

罪魁祸首确实是一个错误的RAM模块。随着内存错误开始在日志中popup，CPU使用中的exception峰值出现了。该模块已被识别并更换，现在问题已解决。