我注意到一些错误,最近出现在/var/log/messages在我们的服务器之一(下面)。 但是,mce客户端似乎不像syslog中的解码条目那么确定错误源。 是否有某种关键用于解释MCE输出?
Nov 12 04:19:19 areion kernel: [14698753.176035] Machine check events logged Nov 12 04:19:19 areion mcelog: HARDWARE ERROR. This is *NOT* a software problem! Nov 12 04:19:19 areion mcelog: Please contact your hardware vendor Nov 12 04:19:19 areion mcelog: MCE 0 Nov 12 04:19:19 areion mcelog: CPU 0 BANK 8 Nov 12 04:19:19 areion mcelog: MISC 640738dd0009159c ADDR 96236c6c0 Nov 12 04:19:19 areion mcelog: TIME 1352711959 Mon Nov 12 04:19:19 2012 Nov 12 04:19:19 areion mcelog: MCG status: Nov 12 04:19:19 areion mcelog: MCi status: Nov 12 04:19:19 areion mcelog: MCi_MISC register valid Nov 12 04:19:19 areion mcelog: MCi_ADDR register valid Nov 12 04:19:19 areion mcelog: MCA: MEMORY CONTROLLER RD_CHANNELunspecified_ERR Nov 12 04:19:19 areion mcelog: Transaction: Memory read error Nov 12 04:19:19 areion mcelog: STATUS 8c0000400001009f MCGSTATUS 0 Nov 12 04:19:19 areion mcelog: MCGCAP 1c09 APICID 20 SOCKETID 1 Nov 12 04:19:19 areion mcelog: CPUID Vendor Intel Family 6 Model 44
所有的错误似乎都与同一个内存条连接在一起:
areion:~# awk -F'mcelog:' '/mcelog:.*BANK/{ print $2; }' < /var/log/messages |uniq CPU 0 BANK 8
我有mcelog守护进程运行,当我检查错误信息,似乎并不知道错误来自哪里。 只有它们与CPU0相关联(我们在这个盒子里只有一个CPU):
Memory errors SOCKET 1 CHANNEL any DIMM any corrected memory errors: 77 total 77 in 24h uncorrected memory errors: 0 total 0 in 24h Per page corrected memory statistics: 359ffc000: total 2 2 in 24h online 3b93cc000: total 2 2 in 24h online 3ce45c000: total 2 2 in 24h online 96236c000: total 20 20 in 24h online triggered 96545c000: total 9 9 in 24h online 96a82c000: total 9 9 in 24h online 96a8ec000: total 1 1 in 24h online 96fb6c000: total 15 15 in 24h online triggered 9c2edc000: total 15 15 in 24h online triggered 9c5eac000: total 1 1 in 24h online 9c6a1c000: total 1 1 in 24h online
我怎么解释这些信息,一点都不清楚。 一方面,mce客户端不指示通道或DIMM,但解码的消息指示在DIMM 8上发生错误dmesg似乎表示仅logging了42条消息:
[14698753.176035] Machine check events logged [14698753.629174] Machine check events logged [14698815.338595] __ratelimit: 38 callbacks suppressed [14698815.338628] Machine check events logged [14698816.020797] Machine check events logged
我似乎正在得到各种各样的消息,这让我不知道根据各种来源报告的信息做出什么样的假设。
其他信息:
areion:~# grep 'model name' /proc/cpuinfo |uniq model name : Intel(R) Xeon(R) CPU X5670 @ 2.93GHz areion:~# apt-cache policy mcelog |grep Installed Installed: 1.0~pre3-3 areion:~# lsb_release -a No LSB modules are available. Distributor ID: Debian Description: Debian GNU/Linux 6.0.6 (squeeze) Release: 6.0.6 Codename: squeeze
您可能想要尝试更换有问题的DIMM(CPU 0,SOCKET 8)并查看是否继续生成MCE消息。
mcelog软件包configuration了一段时间内发生的各种MCE事件的默认阈值。 查看/etc/mcelog/mcelog.conf获取详细信息。 对于内存页错误,阈值是24小时内的10个事件。 (我不确定这个数字来自哪里,但这可能是一个合理的参考点)。 你的post在24小时内提到了77个可纠正的事件,因此很可能DIMM已经出现了一个问题,可能会或可能不会变成更严重的问题。
我不会因为收到来自不同来源的不一致信息而感到不安。 一般来说,我发现固件级别的任何东西都是特定于平台的(即特定于特定的硬件模型)。 对于与固件有关的问题,我的经验法则是供应商的工具通常是最准确的,但是最不可用的。 更通用的开源工具更容易处理,但可能无法提供足够的信息来显示究竟发生了什么。