群集Hyper-V环境故障

我们有两个主机光纤(NIC Team)和铜(Nic Team2)环境。 这些主机是群集的,并使用带有Hyper-V群集和存储池的2012-R2 Standard(更新)。 虚拟机大约有50台平均分布的Debian机器。 networking有三个子网:集群,交换机0,交换机1.两个是集群和客户端,一个是集群。

每隔一段时间,整个环境就会崩溃。 最明显的迹象是虚拟机上的CPU跳到100%,并且物理和虚拟机器的networking访问都不可用。 解决这个问题的唯一方法就是两台主机的硬关机,完成后恢复正常。

下面是我认为通过浏览日志和查看聚合日志logging和性能数据所知道的信息(注意:并非每个消息都适用于每个事件,这是一个聚合):

视窗:

-TCP端口耗尽/ TCP本地端点与远程端点相同,重复使用本地端口 – 事件ID 4227

– 通过networkingredirect的I / O访问 – EventCode = 5121

– 集群共享卷暂停 – EventCode = 5121

-TCP本地端点与远程端点相同,重用本地端口 – 事件ID 4227

– 端口用尽 – 事件ID 4231

Linux的:

在TOP – ksoftirq高CPU

我的解释是:主机或虚拟机端有一个泄漏消耗所有的TCP端口,导致VMQ的备份。 这造成了环境积压,最终导致了崩溃。

我的问题:我如何确定究竟是什么原因造成的问题? 有没有办法在不知道具体情况的情况下缓解这个问题?

由于Teamingfunction没有任何内置的负载平衡function,可以平衡组合的NIC之间的负载,问题可能基于configuration的NIC组合方面,您是否曾尝试删除团队以用于testing目的?

不是直接的答案,而是一些一般的build议


我们遇到的大多数问题都是通过安装由MS发布的修补程序解决的。 那么多人在那里专门的页面列出他们,我不认为他们打扰他们所有的更新:

Hyper-V 2012 R2和相关修补程序 (也链接到其他相关列表,例如HNV群集)

有一个发布的脚本会安装其中的大部分。 我认为这是一个 。

继续这一点。 如果您怀疑是VMQ相关的问题,那么您是否尝试调整configuration或在VM级别将其closures?

正确configurationVMQ的指导

我们看到的暂停状态也是由两件事情引起的。 存储性能下降,LUN过大。 后者只是在备份窗口中有太多活动的VSS快照时出现问题 – 在这种情况下可能不相关。 请查看群集诊断日志以获取有关自动暂停事件的更多信息,或查找networking上的(例如)c000026e状态/原因代码。

CSV疑难解答

除此之外… NIC和存储设备上的驱动程序和固件更新。