今天我们的一个来自OVH的CentOS 6.5 KVM节点在正常运行46天后崩溃,我们无法find原因,之前在另一台服务器上有OVH内核,但是这个运行正常的内核:
Linux 2.6.32-431.11.2.el6.x86_64 #1 SMP Tue Mar 25 19:59:55 UTC 2014 x86_64 x86_64 x86_64 GNU/Linux
我们的监测工具显示如下:
看起来像是一个非常高的负载,即使没有虚拟机做什么奇怪的事情。
我首先查看了/var/log/messages/文件,在停机时间里什么也没有显示:
Jun 16 11:15:11 server dhcpd: DHCPINFORM from 5.XXX.XX.104 via viifbr0 Jun 16 11:15:11 server dhcpd: DHCPACK to 5.XXX.XX.104 (02:XX:00:XX:XX:d3) via viifbr0 -----Downtime no logs----- Jun 16 12:24:01 server kernel: imklog 5.8.10, log source = /proc/kmsg started. Jun 16 12:24:01 server rsyslogd: [origin software="rsyslogd" swVersion="5.8.10" x-pid="1493" x-info="http://www.rsyslog.com"] start Jun 16 12:24:01 server kernel: Initializing cgroup subsys cpuset Jun 16 12:24:01 server kernel: Initializing cgroup subsys cpu
我也检查了dmesg ,虽然我不确定输出是什么意思,因为它看起来很正常: http : //pastebin.com/raw.php?i=YyRCYZdn
我不确定这可能是什么,还有其他日志可以检查吗?
当你debugging虚拟机崩溃,你需要有托pipe服务提供商的协作。 高负荷似乎是在事故发生后。 这使我认为在物理服务器上运行的Linux已经崩溃或有问题(例如运行非常慢,存储问题…)。