VMWare ESXi停止响应

我有一台带有Q6600四核心的家庭服务器和8GB内存,运行了大约8个月的VMWare ESXi 3.5。 我有2个数据存储,每个1TB(SATA HD),一个150GB的免费,另一个240GB免费。 我有9个虚拟机在其上运行24×7。 一切都很好,直到昨天。
在布鲁斯之外,我停止了从ESXi中的虚拟机获取响应。 起初,我可以使用基础设施客户端进行连接,但是如果我尝试从任何虚拟机获取信息,则会收到虚拟机无法访问的消息。 看着主机的信息,它会显示我的networking信息,CPU,内存,但是当我试图到达数据存储,它通常会停止响应。 我只能打开一次安装了ESXi的数据存储,而所有的虚拟机都在那里。 现在,我不能再连接了,我真的不知道该怎么做。
更新我已经在主机上做了几次重启,问题重演。 我通过基础设施客户端连接,但几秒钟后,它变得没有响应。 过了一段时间,现在我无法通过客户端连接更新结束更新
诊断问题的最佳方法是什么? 我可以毫无问题地访问ESXi屏幕,但是我不知道该怎么做。 我正在考虑重新安装它,也许4.0版本,但我不知道我应该这样做。 在哪里(以及如何)可以访问任何可以帮助我找出问题的地方?
TKS

新的更新我重置设置回到默认,我能够连接到VI客户端。 我重新连接了一台虚拟机,并开始启动,但是我又遇到了问题。 虚拟机尝试启动并最终locking,并且VI客户机无响应,我无法再连接到它。 在@pehrsbuild议之后,我进入了不受支持的模式,并且检查了/ var / log /消息,并且发现了一堆错误。 以下是一个示例:

8月31日02:59:36 vmkernel:0:00:28:41.882 cpu0:2179)StorageMonitor:196:vmhba33:0:0:0 status = 2/0 0xb 0x0 0x0
8月31日02:59:37 vmkernel:0:00:28:42:357 cpu0:5279)<3> ata4:transageld ATA stat / err 0x71 / 04到SCSI SK / ASC / ASCQ 0xb / 00/00
Aug 31 02:59:37 vmkernel:<4> ata4:status = 0x71 {DriveReady DeviceFault SeekComplete Error 0:00:28:42.357 cpu0:5279)}
最后的信息重复了1次

我还在同一个文件的某些行上得到了一些DriveStatusError。 现在,查看/var/log/vmware/hostd-0.log,成功打开我重新附加的第一个VM的vmdk文件后,出现一些错误:

[2010-08-31 02:44:15:199'PropertyCollector'213004 warning] GetPropertyProvider失败haTask-ha-folder-vm-vim.Folder.registerVm-45
[2010-08-31 02:45:05:693'PropertyCollector'98311 warning]对于haTask-16-vim.VirtualMachine.powerOn-49,GetPropertyProvider失败

之后,我得到了几个其他GetPropertyProvider错误,然后一些超时…看起来很清楚,我有一个高清问题。 我能做些什么来保存我的虚拟机? 我可以对HD进行扫描检查吗? 如果是的话,怎么样? 谢谢! 更新结束

我怀疑你正在使用消费级驱动器来存储? 如果是这样的话,那么这些系统会有错误恢复系统,这些系统会在尝试错误恢复的时候拖延音量。 发生这种情况时,所有存储服务可能会延迟相当长的一段时间(10+秒)。

在企业级驱动器中,假设将在RAIDarrays级别处理错误恢复(对于企业部署隐含地假定RAID),则禁用或从不包括该“function”。 例如,Western Digital将此function(或删除function!)称为TLER – 有限时间错误恢复。 实际上,这意味着启用了TLER的驱动器不会在很长一段时间内停顿以执行扇区恢复/重新映射/不pipe。

因此,如果您运行的是消费级驱动器,则在您的某个磁盘上遇到错误的可能性很大,并且在尝试恢复时会一再拖延。

解决scheme可能有点棘手 – 我不知道是否有任何第三方磁盘错误扫描程序将支持VMFS,并不会冒任何困难拉动磁盘和扫描他们,除非完全确保它不会垃圾卷。

为什么不重新启动主机? 如果无法从控制台重新启动,那么只需重新启动它即可。 这是一个激烈的措施,但我不得不这样做了不止一次。

你确定你已经安装了所需的.NET框架吗? 我相信VI Client需要.NET 3.5。

我在最后一个演出中看到了这个,一个实验室试图运行一个独立的ESXi盒子。 他可以连接,但会挂起,断开或以其他方式断开。 我们一直在努力,但是在这个过程中,他终于安装了一个额外的.NET框架,并且完全解决了这个问题。

是的,我知道这听起来很疯狂。

你有足够的时间访问虚拟机吗? 如果是这样,你可以尝试系统地禁用虚拟机,以确定虚拟机是否在某种程度上与这种情况发生作用。

在ESX 3.5上,如果您手动编辑了.vmx文件(如在文本编辑器中),并且输错了某些内容,则会破坏VI控制台。 更糟糕的是,无论谁犯了错误,都会发生在任何一个VI控制台上,并且不会给出任何信息,警告或错误。 (我狠狠地向我们的VMware代表介绍这个,但他们说这是预期的行为…)

我build议在团队中的所有人横向出现之前,发现每一个正在被修改的虚拟机。 然后validation它们。

如果你和那些不能拼写和打字的人一起工作,这是特别痛苦的。

尝试SSH'ng到有问题的机器。

至less如果SSH控制台没有在相同的时间内挂断,您可以确定其vSphere Client / Server接口是否挂起,或者服务器本身是否正在运行。

无论哪种方式,这听起来像一个“死”的ESXi服务器对我来说。 尝试升级到4.0我会认为最后努力和/或尝试修复安装,如果可能的话,但…

听起来很怪