机器检查事件logging

在/ var / log / messages中,发生此错误:

Sep 19 13:18:15 wdc kernel: [2772302.630416] Machine check events logged 

不久之后,整个服务器变得没有反应。 这是一个Xen Server的Dom0的日志(在Debian Squeeze上运行最新版本)。

谁能澄清这个错误的含义? 我应该订购新硬件吗?

编辑:另外,它似乎暗示它logging的东西,我在哪里可以find?

有关更多信息,请查看logfile(该日志文件可能存在或可能不存在,取决于在/etc/mcelog/mcelog.conf中如何configuration),其中应详细说明发现的问题。

 /var/log/mcelog 

或者只是运行命令

 mcelog 

Mcelog正在解码x86机器上的内核机器检查日志。 从man mcelog

 X86 CPUs report errors detected by the CPU as machine check events (MCEs). These can be data corruption detected in the CPU caches, in main memory by an integrated memory controller, data transfer errors on the front side bus or CPU interconnect or other internal errors. Possible causes can be cosmic radiation, instable power supplies, cooling problems, broken hardware, or bad luck. Most errors can be corrected by the CPU by internal error correction mechanisms. Uncorrected errors cause machine check exceptions which may panic the machine. When a corrected error happens the x86 kernel writes a record describing the MCE into a internal ring buffer available through the /dev/mcelog device mcelog retrieves errors from /dev/mcelog, decodes them into a human readable format and prints them on the standard output or optionally into the system log. 

您可以在项目网页Mcelog项目网页上find有关mcelog及其configuration/错误/触发器的更多信息

日志条目是由mcelog写的。 它的日志文件可以在/var/log/mcelog ,也可以在系统日志中find。

X86 CPU能够检测并有时纠正硬件错误(内存,IO和CPU硬件错误)。 mcelog从/dev/mcelog mcelog中检索这些错误,Linux内核在那里写入。

当您的系统崩溃时,硬件更正可能失败。 如果系统继续运行,自动更正似乎正在工作。

有关查看此类消息的更多背景信息,请参阅syslog中的“mce:[硬件错误]:机器检查事件logging”。 我该怎么办?