我的服务器随机挂起,没有任何日志logging(dmesg,syslog,kern.log,boot.log和消息)变得没有响应。 我无法预测什么时候会发生。 有时服务器运行良好数月,突然间又开始发生。 在上个星期发生了8次以上。 这种情况已经发生了一年多了。
内核日志总是一样的:
Jan 24 03:20:34 voyager dnsmasq-dhcp[4476]: DHCPREQUEST(br100) 192.168.145.3 fa:16:3e:4e:e0:d5 Jan 24 03:20:34 voyager dnsmasq-dhcp[4476]: DHCPACK(br100) 192.168.145.3 fa:16:3e:4e:e0:d5 viaapp Jan 24 03:20:37 voyager dnsmasq-dhcp[4476]: DHCPREQUEST(br100) 192.168.145.9 fa:16:3e:62:09:86 Jan 24 03:20:37 voyager dnsmasq-dhcp[4476]: DHCPACK(br100) 192.168.145.9 fa:16:3e:62:09:86 web-sistemas Jan 24 03:20:38 voyager dnsmasq-dhcp[4476]: DHCPREQUEST(br100) 192.168.145.16 fa:16:3e:79:dd:f8 Jan 24 03Jan 24 03:22:47 voyager kernel: imklog 5.8.6, log source = /proc/kmsg started. Jan 24 03:22:47 voyager rsyslogd: [origin software="rsyslogd" swVersion="5.8.6" x-pid="2040" x-info="http://www.rsyslog.com"] start Jan 24 03:22:47 voyager rsyslogd: rsyslogd's groupid changed to 103 Jan 24 03:22:47 voyager rsyslogd: rsyslogd's userid changed to 101 Jan 24 03:22:47 voyager rsyslogd-2039: Could not open output pipe '/dev/xconsole' [try http://www.rsyslog.com/e/2039 ] Jan 24 03:22:47 voyager kernel: [ 0.000000] Initializing cgroup subsys cpuset Jan 24 03:22:47 voyager kernel: [ 0.000000] Initializing cgroup subsys cpu Jan 24 03:22:47 voyager kernel: [ 0.000000] Linux version 3.2.0-60-generic (buildd@toyol) (gcc version 4.6.3 (Ubuntu/Linaro 4.6.3-1ubuntu5) ) #91-Ubuntu SMP Wed Feb 19 03:54:44 UTC 2014 (Ubuntu 3.2.0-60.91-generic 3.2.55) Jan 24 03:22:47 voyager kernel: [ 0.000000] Command line: BOOT_IMAGE=/vmlinuz-3.2.0-60-generic root=UUID=c8dba39e-4d36-4528-9432-d610fce72407 ro crashkernel=384M-2G:64M,2G-:128M console=tty1 console=ttyS0,115200n8
该服务器有英特尔S5500BC主板,至强E5630英特尔CPU,32GB内存和4倍希捷酷鱼2TB 7200 RPMST2000DM001。 我正在使用内核3.2.0-60-generic的Ubuntu 12.04.2 LTS,硬盘是使用md的软RAID 10的一部分。 我也运行一些使用kvm和libvirt的虚拟机。
一开始我以为这跟I / O的使用有关系。 我强调CPU,I / O,硬盘I / O和内存分配使用许多工具,包括dd,压力,以及我在bash / python中开发的一些脚本。 我从来没有能够复制这个问题。
所有的硬盘都通过了smartctl的短期和长期的自我testing。 没有任何错误消息。
我也安装了linux-crashdump,但是它也不能logging任何东西。 我每两秒钟跑一个脚本收集传感器的输出,温度似乎没问题 – 低于55摄氏度。
我已经更换了主板,内存和硬盘,但问题依然存在。 因此,我猜这不是硬件相关的,由于任何原因操作系统不能写日志。 我也使用memtesttesting了RAM,并成功通过了四个周期。
我唯一注意到的是,当我用stress
进行压力testing时,我得到了以下日志:[28189.472043]信息:任务kvm:5058被阻塞超过120秒。
我启用了IPMI,并在服务器挂起时响应。 我用它来收集传感器和事件日志。 由于它总是有关于功率单元的日志logging,所以我已经更换了三次电源。 IPMI为我节省了大量的停机时间,因为我使用它来重新启动服务器。 服务器连接到一个不间断的,有3个更多的服务器连接到它。 没有其他的服务器有任何问题。
bc3 | 01/22/2015 | 22:47:41 | Power Unit Pwr Unit Status | Power off/down | Asserted bc4 | 01/22/2015 | 22:47:41 | Power Unit Pwr Unit Status | Failure detected | Asserted bc5 | 01/22/2015 | 22:47:46 | Power Unit Pwr Unit Status | Power off/down | Deasserted bc6 | 01/22/2015 | 22:47:46 | Power Unit Pwr Unit Status | Failure detected | Deasserted bc7 | 01/22/2015 | 22:47:49 | Fan System Fan 3 | Lower Non-critical going low | Deasserted | Reading 0 bc8 | 01/22/2015 | 22:47:49 | Fan System Fan 3 | Lower Critical going low | Deasserted | Reading 0 bc9 | 01/22/2015 | 22:47:56 | Fan System Fan 3 | Lower Non-critical going low | Asserted | Reading 0 < Threshold 374 RPM bca | 01/22/2015 | 22:47:56 | Fan System Fan 3 | Lower Critical going low | Asserted | Reading 0 < Threshold 330 RPM bcb | 01/22/2015 | 22:48:01 | System Event BIOS Evt Sensor | Timestamp Clock Sync | Asserted bcc | 01/22/2015 | 22:48:02 | System Event BIOS Evt Sensor | Timestamp Clock Sync | Asserted bcd | 01/22/2015 | 22:48:43 | System Event BIOS Evt Sensor | OEM System boot event | Asserted bce | 01/22/2015 | 22:48:51 | Critical Interrupt PCIe Cor Sensor | | Asserted
有时服务器重新启动而不是挂起。 但大多数时候它挂起,我自己必须重新启动它。
啊,还有一个信息,服务器有时会在引导过程中挂起,甚至在加载GRUB之前。
你有什么build议,正在发生什么,或者我能做些什么来进一步解决这个问题?
只是给这个问题的反馈。 我也改变了SATA电缆,问题依然存在。 运行memtest超过24小时后,开始增加错误计数器。
现在我试图找出哪个内存模块坏了。
–
坏记忆模块被更换了,现在让我们看看问题是否解决。 我希望如此,但是我没有那么自信,因为我已经更换了内存模块。
–
服务器昨天下午突然重启。 没有停电,没有其他设备重新启动。 我们仍在试图找出问题所在。