在运行CentOS 5.10的VM服务器上,间歇性的完整系统挂起

CentOS 5.10 / VMWare ESX 5.1

我有一个运行CentOS 5.10(带有SendMail)的旧电子邮件服务器,并且遇到间歇性挂起,其中系统完全没有响应。 在这段时间内,我根本无法连接,虚拟控制台没有响应。

奇怪的是,我们的VMWarepipe理员组没有看到任何明显的资源尖峰,这将表明资源不足,负载峰值等。此外,当我检查系统日志(例如maillog,消息等)时,显然不存在在挂起时间内的所有日志活动中,这表明这些中断严重到足以防止日志logging(或者可能存在文件系统/磁盘问题)。

一个不正常的地方是发送邮箱的日志很高(98而不是通常的9级)。 我马上就把它恢复正常。

我很难在这里我可以去更多的信息。 是否有线程转储可以告诉我在挂起期间操作系统正在工作?

附加信息:

  • 内核版本是: 2.6.18-371.4.1.el5 #1 SMP Thu Jan 30 06:09:24 EST 2014 i686 i686 i386 GNU/Linux
  • 存储在共享SAN上处理。
  • 根据内部策略,VMWare工具没有安装在系统上,但是我们已经运行了很长一段时间没有vmware工具,所以我们不认为它的缺失必然是根本原因。
  • VMWare的特定版本是:VMware ESXi 5.1.0 build-2000251
  • 硬件是IBM 3850 M2,型号7233AC1

所以,32位的CentOS 5.10 …这不一定是个问题…

但是,运行VMware支持的操作系统时, 应始终安装VMware工具。 当vSphere / ESXi主机内存受到限制时,这可能非常有用,另外还会增加内存扩展驱动程序,更好的NIC接口选项(适用于您的EL5系统)和电源pipe理。

一般来说,看看在发生这些问题时SAN正在做什么。 另外,如果您不使用VMware工具,则ESXi很可能不在稳定的修订级别上 。 请回报ESXi内部版本号。 连接到主机后,您会在vSphere Client的顶部看到它。


编辑:

由于这是一个vSphere群集,您可以让团队检查内存分配吗? 由于内存configuration不当,我看到Linux虚拟机挂起或locking。 这可以包括在所涉及的VM的vSphere客户端中设置RAM限制。 这也可能包括您的集群在RAM上过度分配和/或VM分配的RAM太多的情况。

请参阅: vSphere教育 – 使用*太多内存configuration虚拟机的缺点是什么?

任何更深入的分析都需要查看一些VMware群集/资源状态屏幕。

我只是想closures这个循环。 将SendMail日志logging从99减less到9(默认)后,神秘的挂起停止了。 不可否认,这是一个很高的日志级别的设置,但我从来没有看到完全磨碎一个服务器停下来。 也不知道这样设置了多久。

我的猜测是,这种间歇性性质来自平庸的磁盘I / O速度和偶尔的SMTP负载峰值的组合。

感谢大家的帮助。