群集Hyper-V环境故障

我们有两个主机光纤（NIC Team）和铜（Nic Team2）环境。这些主机是群集的，并使用带有Hyper-V群集和存储池的2012-R2 Standard（更新）。虚拟机大约有50台平均分布的Debian机器。 networking有三个子网：集群，交换机0，交换机1.两个是集群和客户端，一个是集群。

每隔一段时间，整个环境就会崩溃。最明显的迹象是虚拟机上的CPU跳到100％，并且物理和虚拟机器的networking访问都不可用。解决这个问题的唯一方法就是两台主机的硬关机，完成后恢复正常。

下面是我认为通过浏览日志和查看聚合日志logging和性能数据所知道的信息（注意：并非每个消息都适用于每个事件，这是一个聚合）：

视窗：

-TCP端口耗尽/ TCP本地端点与远程端点相同，重复使用本地端口 – 事件ID 4227

– 通过networkingredirect的I / O访问 – EventCode = 5121

– 集群共享卷暂停 – EventCode = 5121

-TCP本地端点与远程端点相同，重用本地端口 – 事件ID 4227

– 端口用尽 – 事件ID 4231

Linux的：

在TOP – ksoftirq高CPU

我的解释是：主机或虚拟机端有一个泄漏消耗所有的TCP端口，导致VMQ的备份。这造成了环境积压，最终导致了崩溃。

我的问题：我如何确定究竟是什么原因造成的问题？有没有办法在不知道具体情况的情况下缓解这个问题？

由于Teamingfunction没有任何内置的负载平衡function，可以平衡组合的NIC之间的负载，问题可能基于configuration的NIC组合方面，您是否曾尝试删除团队以用于testing目的？

不是直接的答案，而是一些一般的build议

我们遇到的大多数问题都是通过安装由MS发布的修补程序解决的。那么多人在那里专门的页面列出他们，我不认为他们打扰他们所有的更新：

Hyper-V 2012 R2和相关修补程序（也链接到其他相关列表，例如HNV群集）

有一个发布的脚本会安装其中的大部分。我认为这是一个。

继续这一点。如果您怀疑是VMQ相关的问题，那么您是否尝试调整configuration或在VM级别将其closures？

正确configurationVMQ的指导

我们看到的暂停状态也是由两件事情引起的。存储性能下降，LUN过大。后者只是在备份窗口中有太多活动的VSS快照时出现问题 – 在这种情况下可能不相关。请查看群集诊断日志以获取有关自动暂停事件的更多信息，或查找networking上的（例如）c000026e状态/原因代码。

CSV疑难解答