我们使用Hyper V在6个节点的刀片故障转移群集上运行多个VM。
我们有一个间歇性的问题(每隔几天在不同的时间 – 而不是一个固定的频率)的虚拟机失去了networking连接。 控制台访问虚拟机表示一切正常,底层的刀片连接正常。 要解决这个问题,我们必须重新启动虚拟机,或者更常见的是,我们实时迁移到另一个启动连接的刀片,然后将其迁移回原始刀片。
我已经在特定的刀片服务器上运行了一个特定的虚拟机,发生了三次这种情况,但是在不同的刀片服务器上运行了不同的虚拟机之后发生了一次。 所有虚拟机和刀片都具有相同的基本设置,并运行Windows 2008 R2。
任何想法,我应该寻找诊断这个问题的可能原因作为事件日志没有提供帮助?
编辑:
我已经检查过,每个刀片服务器都运行最新的NIC驱动程序,而且都很好。
一些令我困惑的事情 – 虚拟机的故障转移或重新启动解决了这个问题。 虽然我需要找出导致NIC挂起的根本问题,但是我也担心VM不会故障切换到另一个节点,而这个节点已经解决了我的中断问题。 有没有办法configuration群集,以便它可以告诉VM guest虚拟机已经失去了连接,并使其失败? 根据情况,集群认为虚拟机运行愉快,因为我认为Hyper V说即使存在问题,一切都很好。
编辑:
以为我会更新这个问题,因为问题依然突出 – 不太频繁,但对于哪个虚拟机受到影响似乎是随机的。 最新的检查是,所有虚拟机运行相同的MPIO驱动程序和相同的虚拟网卡驱动程序版本。 一切看起来都与在同一刀片服务器中心运行的一些虚拟机相同,但在这个集群之外,这些虚拟机从来没有遇到任何问题。
可以这是你的问题的答案: http : //support.microsoft.com/kb/974909
你偶然有端口安全打开你的交换机端口? 确保你有足够多的MAC允许的。 你父母的networkingconfiguration是什么? 你是团队吗?
不是我希望的理想答案,但在这种情况下,它为我们的设置工作…
我们将受影响的虚拟机从群集中取出,将其移除,然后重新创build它们。 结合起来,每个刀片都被从集群中拉出来,并且所有的驱动程序都在更新之前被更新。
在接下来的6个星期里,我监测到他们的连接性问题是显而易见的 – 工作改变之后,我意识到问题还没有解决;)!