调查例行服务器冻结

我有一个运行CentOS 6.3的专用服务器。 每隔一段时间,早上从我的时区2:00到6:00左右,服务器冻结 – 我不确定发生了什么,但似乎所有正在运行的进程都停止了。 我做的一个Java应用程序每分钟都会保存日志,然后停止。 我能够连接到KVM,发现黑屏,从KVM界面我能够重新启动它。

我想知道如果有人有任何想法如何调查这个问题的原因。 我不确定要查看什么日志以及我可能会find什么。

这是一个带宽使用的图片:

http://bit.ly/UwfsEn

正如你所看到的,当我能够把它重新打开的时候,它似乎完全被切断并且回来了。

有几个选项:

  • 虚拟化软件/ KVM的崩溃
  • 客户操作系统或networking堆栈崩溃[如果您的Java cron作业在本地运行,并且不依赖于networking连接,我们可以排除networking堆栈]
  • 系统以某种方式超载 – 交换死亡,CPU饿死,进程数量受到限制,或内存不足。

为了排除资源耗尽,请使用Sar或Munin之类的东西,并尽可能每分钟收集基本的统计数据。 Munin将为您提供大量有用的统计数据,包括平均负载,进程数量,CPU使用率,可用内存,交换使用率和交换活动。

我担心这是一个客户内核崩溃或KVM的不当行为。 如果是这样,上面的方法将无济于事。