如何处理(VMware ESXi)服务器崩溃?

我有一个专用的服务器(Core 2 Duo E4600,2GB DDR2,LSI Raid 1和250GB SATA存储)。 运行VMware ESXi 3i(3.5.0)和3个虚拟机(1个Ubuntu 9.04,1个Ubuntu 9.10,1个Windows 2003 Web版)

今天下午,它突然停止了回应。 VMware Infrastructure Client无法连接,远程桌面无法连接,SSH无法连接。 尝试不同的互联网连接等几分钟后,我决定做一个远程电源周期,并得到了一切,再次运行。

现在我想知道: 什么是正确的方式来分析或debugging这种服务器崩溃?

ESXi事件日志以干净的表格开始,因此没有任何内容。 虚拟机(Linux的系统日志,Windows事件日志)不报告任何特殊的东西,机器真的有平庸的负载整体。

什么地方看? 我可以启用更多日志logging,以便我可以调查未来可能的崩溃?

在崩溃后重新启动时,ESX通常会在/ root主目录中创build一个vmkernel-zdump文件。 这是一个压缩文件,具有核心映像和/ var / log / vmkernel日志文件块。 首先要做的是从这个转储文件中获取日志文件

[root] vmkdump -l vmkernel-zdump-101409.14.18.1 created file vmkernel-log.1 

并查看最后几行,看看是否可以从最后的日志条目或堆栈跟踪中得到任何提示。

最明显的一点是“使用你的VMWare支持合同”,但是当然ESXi经常被完全自由地使用而没有购买支持,所以我假设你没有。

所以接下来要做的就是意识到几乎可以肯定系统转储已经被创build了,你需要检查一下是否是,并学习如何读取它。 现在我可以详细介绍如何做到这一点,但有人已经创build了一个很好的指导如何做到这一点。

祝你好运。

你没有提到看控制台,所以我猜你正在运行这个服务器无头(没有显示器)。 这是不好的 – 非常糟糕 – 当涉及到VMWare。

总是有一个附加的显示器和数码相机拍摄内核恐慌(可能是原因)。 这将表明恐慌发生的地点 – 可能是一个错误的司机。

编辑:这也可能是networking连接的损失。 如果你有一个显示器/键盘,你可以通过控制台login,并正确closures虚拟机(如果他们已经安装了VMware工具),并安全地重新启动主机服务器。

您是否可以通过IP-KVM,远程pipe理卡等连接到控制台?

检查已分配给控制台应用程序的RAM数量。 它默认为一个相当低的数字。 VMware的支持build议我最大的价值达800兆。