无响应的ESXi 5.5服务器

我有一个主机,它是HA中4主机群集的一部分。

昨天有一段时间我注意到主机停止了响应,在vsphere控制台中,它显示为灰色(没有响应),并且所有虚拟机都显示为(无法访问)。 他们自己的虚拟机仍然正常运行,我可以远程桌面到他们,一切都起来了。 这台机器上有关键的服务器。 我试图右键单击主机,并在几个小时后“连接”,只是失败。 我不能移动它的虚拟机,所有的行动是灰色的。 在主机按F2键给我的login提示,input我的凭证后,什么也没有发生。 ALT + F1不让我做任何事情,因为它没有启用。 SSH未启用。 用ALT + F11我可以看到hostd已经崩溃,这可能是问题。 我称之为Vmware,因为我完全支持,但经过很短的通话,他说没有什么可做,只能强行closures主机。

我宁愿不这样做,我想重新启动hostd,但我似乎无法访问。 我尝试PowerCLI但连接到主机超时。 直接到主机的Vsphere也超时了。 ping主机工作,所以至less有networking。

任何人都知道任何其他方式来获得壳?

谢谢。

更多信息:在Dell PowerEdge R720,Dell PERC H710上运行ESXi 5.5.0 1331820

我检查了DRAC,本地卷是健康的。 它实际上只是一个RAID 1,所有的虚拟机都在SAN上。 vmware esxi的欢迎页面可以正常工作,但是如果我点击“浏览这个主机库存中的数据存储”,它就不会显示出来。 暴徒似乎也在正常工作“hostip / mob /?moid = ServiceInstance&doPath = content”;

在ALT + F11控制台上:2014-09-11T7:15:02.329Z cpu12:57750311)检测到hostd不响应

同一行,不同的时间和CPU的11倍。

这听起来像是一个本地存储问题。 我在一个拥有数百个在本地RAID存储上运行的ESXi主机的环境中工作。 不幸的是,硬件中的本地存储控制器是不稳定的…… LSI固件版本错误,背板有缺陷以及Supermicro硬件混杂在一起。

但是,您描述的行为表示本地存储问题。 您正在运行的虚拟机在RAM中,networking堆栈不受影响,但pipe理主机的能力受到影响。 您的login不起作用,因为主机无法从本地磁盘读取。 任何其他需要磁盘访问的命令都是一样的。

这里最好的select是安排有序closures虚拟机(来自客户操作系统)。 从那里,手动失败主机(关机,重新启动等)让它保持在维护模式或集群select之外。 启动虚拟机并允许它们在vSphere群集中的其他位置运行。

如果您有兴趣debugging主机的问题,请查阅Dell DRAC以获取有关存储arrays状态的信息。 这将指向你正确的方向。