生产中的VMware主机驱动器故障

我有运行ESXi 5.1的PERC 6 / i的Dell PE R710。 它有两个数据存储区,其中一个是RAID1中的两个SSD。 今天早上,我被称为有些东西没有工作。 最初,我login到vSphere客户端以查看虚拟机没有响应。 我试图停止所有的虚拟机,但没有发生任何事情。 我试图浏览数据存储,但是没有任何文件夹/文件出现。 阅读了一些知识库文章后,我运行了两个命令:/etc/init.d/hostd restart – 并 – /etc/init.d/vpxa restart

那时候,数据存储没有出现在vSphere中。 进入服务器之前,在其LCD面板上显示以下内容:E1810硬盘驱动器故障。 所以看来,一个驱动器坏了。 通常在Windows服务器上,我只需要热交换驱动器。 但是由于这是VMware,我不确定适当的程序。 我将不胜感激任何帮助!

如果数据不可访问,则可能是由于多磁盘故障或类似情况而丢失了arrays。 这是硬件监控没有实现时发生的情况,在你意识到这一点之前你松了太多的RAID成员。 它也发生在一个更通用的硬件故障,如片状卡。

在这种情况下,通常只会在服务中断时警示您的arrays完整性已经损坏,直到您需要从备份中恢复。

交换驱动器的过程与Windows,Linux或任何其他操作系统在这个盒子上是完全一样的。 你的硬件RAID卡正在处理一切。 然而,hotswapping可能不会对你有任何好处,因为你的整个arrays可能已经损坏,而不仅仅是降级。 通过使用megacli或Dell OpenManage等软件工具,或者通过重新引导到卡的BIOS界面并在那里检查arrays,在做任何事情之前评估arrays的状况。 另请检查您的iDRAC是否有可能显示故障的硬件日志。

在这种情况下,您可能不得不从备份中恢复,因为您可能会发现无论是您的SSD都损坏了,还是您的控制器/背板损坏了(或全部)。 最好是将数据恢复到另一个节点,并将其用于其他节点,直到可以确定这是多磁盘,控制器还是背板故障。

最后,我最终启动了RAID控制器configuration并检查了物理驱动器。 它被标记为“丢失”,更糟糕的是被configuration为RAID0。 我closures了服务器并重新安装了驱动器。 在启动服务器时,RAID控制器显示一个外部configuration,但是我没有导入它。 一旦ESXi启动,SSD的数据存储仍然无法识别。 我closures了服务器。 我启动它,这次将外部configuration导入RAID控制器。 ESXi启动并识别SSD数据存储! 我马上就把所有的数据都清除了