我有一台桌面作为另一个办公室的Ubuntu服务器运行。 最近一段时间它一直在closures,我有点不确定如何诊断这一点。 系统日志看起来像这样:
May 20 15:42:35 hostname sensord: Chip: coretemp-isa-0000 May 20 15:42:35 hostname sensord: Adapter: ISA adapter May 20 15:42:35 hostname sensord: Core 0: 67.0 C May 20 15:42:35 hostname sensord: Core 1: 66.0 C May 20 15:42:35 hostname sensord: Core 2: 61.0 C May 20 15:42:35 hostname sensord: Core 3: 58.0 C May 20 16:04:16 hostname kernel: [ 5243.049529] CPU0: Core temperature above threshold, cpu clock throttled (total events = 1) May 20 16:04:16 hostname kernel: [ 5243.050011] CPU0: Core temperature/speed normal May 20 16:05:48 hostname kernel: [ 5335.083540] CPU2: Core temperature above threshold, cpu clock throttled (total events = 1) May 20 16:05:48 hostname kernel: [ 5335.084028] CPU2: Core temperature/speed normal May 21 16:06:52 hostname kernel: [ 5399.816039] mce: [Hardware Error]: Machine check events logged
起初,我怀疑一个破碎的粉丝或者是一些热的东西,并激活了sensord。 但随着时间的推移温度似乎稳定。
编辑:我已经安装了mcelog和deamon正在运行。 几乎等待它再次发生,看是否mcelog是有道理的。
更新
mcelog表明这是一个散热问题,我有如下所示的日志,与Gitlab服务器备份cron作业的时间匹配。
MCE 0 CPU 0 THERMAL EVENT TSC 16ec0aadec3a0 TIME 1401260314 Wed May 28 08:58:34 2014 Processor 0 heated above trip temperature. Throttling enabled. Please check your system cooling. Performance will be impacted STATUS 88020003 MCGSTATUS 0 MCGCAP 806 APICID 0 SOCKETID 0 CPUID Vendor Intel Family 6 Model 15 Hardware event. This is not a software error.
我今天也做了一些testing,强调系统的stress -c 4 -i 1 -m 1 -t 120
,我很快就达到100℃的CPU温度。
coretemp-isa-0000 Adapter: ISA adapter Core 0: +100.0°C (high = +84.0°C, crit = +100.0°C) Core 1: +96.0°C (high = +84.0°C, crit = +100.0°C) Core 2: +85.0°C (high = +84.0°C, crit = +100.0°C) Core 3: +79.0°C (high = +84.0°C, crit = +100.0°C)
我怀疑散热器没有正确安装,当我find时间的时候我会检查这个。
解
我会检查CPU的热水和水槽,作为一个快速修复。
我拿到了一台用过的戴尔PowerEdge R200来replace这台服务器,下周我会试着去设置它。 非常感谢你的build议。
您可能可以诊断这个…日志表明一个热问题。 CPU粘贴,散热片,散热等
但是,这里的专业答案:
什么是重置成本? 预料之外的停机时间是否足以让terminal/业务用户更换已知好的服务器级硬件?
是否需要中断时间来对硬件进行适当的诊断,从而对用户产生负面影响?
如果是这样,请更换它…
如果没有,请排除故障…尝试前面提到的testingRAM。 此外,请查看您是否可以使用压力工具或诊断Live CD导致不良行为。
系统告诉你这是logging硬件错误,你看过他们吗?
5月21日16时06分52秒主机名内核:[5399.816039] mce:[硬件错误]:机器检查事件logging
参考: Ubuntu的手册页为mcelog 。