Windows群集停电后失败

首先,我们有一个运行HA Hyper-V和DHCP的Windows 2008 R2双节点群集。 我们利用后端的Dell MD3000i iSCSI SAN进行存储。 所有的networking都通过冗余交换机和MPIO驱动程序来完成。 数据networking位于与主networking不同的VLAN中。

以下是我们遇到的情况:

我们有时会停电。 我们在机柜中有两个UPS设备,它们可以持续15分钟左右,但是如果我们没有恢复供电,一切都会下降,集群节点,SAN等。

最终电源恢复正常,所有设备都configuration为在AC返回时启动。 但是,当我们像这样完全中断时,集群永远不能正常恢复在线状态。 我们得到像Quorum磁盘不可用等常见错误。另外,我们的两个主要域控制器是虚拟机群集上的虚拟机。 我们确实有一台物理服务器作为另一个域控制器运行,认为这将有助于事情恢复在线状态。

我们不理解的是,为什么系统启动时无法自我恢复,最终还是有可用的DC进行身份validation。 iSCSInetworking恢复在线状态,还有什么我们错过了吗?

我认为这可能与iSCSI启动器服务在群集服务准备就绪时启动不够快有关。

任何想法或事情,我可以发布帮助?

谢谢,布伦特

我们遇到同样的问题,我们的集群在电源故障后没有恢复干净。 和您一样,共享存储位于iSCSI SAN上。 我们的修补程序是确保VM主机和guest虚拟机的启动延迟了足够长的时间,以确保SAN再次联机。 我们发现,如果我们不这样做,共享卷将重新连接,但保持脱机状态,从而导致群集失败….

我在自己的系统上遇到了这个问题。 发生电源故障后,群集不会恢复,因为域控制器未准备好,或者SAN尚未准备好。 对于那些没有任何pipe理PDU或BIOS选项来延迟启动,并需要添加启动延迟,这里有一个简单的方法张贴在这个博客

在Server 2008上,打开命令提示符并键入:

bcdedit /copy {current} /d "Boot delay placeholder" bcdedit /timeout 300 

这将创build第二个引导菜单选项(需要显示超时),并将超时设置为5分钟(300秒)。 服务器将位于启动菜单中,直到超时或有人按下Enter键。