我在一个超微型H8QG6板上运行Centos 7(3.10.0-514.26.2.el7.x86_64),带有4个AMD 6276 CPU(16个内核),共64个内核。 我用它来进行科学计算,通常情况下一切都很顺利,就像htop的第一张图片一样 。 然后,突然间,htop开始报告1000%以上的单个CPU使用率,就像在第二张图像中一样 ,而且计算机几乎没有响应。 顺便说一句,几乎每一个过程似乎超载的cpus:甚至htop本身报告1600%的负载! 与此同时,这些错误出现在journalctl: perf: interrupt took too long (3973 > 3883), lowering kernel.perf_event_max_sample_rate to 50000 kernel: IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 52, got netfn 5 cmd 2d kernel: IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 52, got netfn 5 cmd 2 kernel: IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 37, got netfn 7 cmd 52 kernel: IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 52, got netfn 7 cmd 37但我不能确定他们是否是一个症状或奇怪行为的原因。 有谁知道发生了什么? 非常感谢!
更新 :我安装了ipmitool并启动了ipmievd守护进程。 一旦问题出现,journalctl中将显示以下内容:
ipmievd[7567]: Memory sensor - Correctable ECC (@DIMMD1(CPU3))
问题是否可能与有问题的内存模块有关?
罪魁祸首确实是一个错误的RAM模块。 随着内存错误开始在日志中popup,CPU使用中的exception峰值出现了。 该模块已被识别并更换,现在问题已解决。