奇怪的Windows更新问题 – 连接丢失

我看到一个真正奇怪的问题,我无法隔离。

场景:作为稳定群集的一堆Dell Poweredge服务器。 试图应用一些Windows更新,服务器失去了互联网和域的信任。 无法重build域信任。 卸载更新,它的工作。 重新安装,一切正常。 同样的事情在另一台服务器上,所以我决定重build基线。 服务器从头开始重build:已经应用了最新的固件(BIOS,NIC,RAID等)和最新级别的驱动程序。 标准的2012R2 Datacenter构build,联网,然后进入更新。 在构build的不同阶段,正在应用更新互联网连接的更新。 DNS完全解决,你可以ping,traceroute等但浏览器不工作。 此外,如果您尝试在此时join域,则为“找不到networkingpath”。 多次尝试恢复连接失败。

在某些情况下,服务器到达准备join域的阶段,然后另一组更新出现域后join,其中一些将再次淘汰互联网连接。 在这一点上,与域名的信任关系也失去了。

大多数情况下,卸载最新更新和重新启动的简单过程将恢复连接。 然后,您可以重新安装完全相同的更新,服务器继续自行运行。 如果此时位于域中,则必须重置机器帐户才能恢复信任。 然后,它将在构build的后期再次发生,并有不同的更新。

我已经排除了它是一个单一的更新负责,因为它发生在不同的阶段,不同的汇总被应用。 已经尝试了多个驱动程序/固件版本的服务器。 networking上没有防火墙。 没有安全软件。 没有Windows防火墙。 我甚至把sysprepped一个服务器,并重build它的网卡基础设施和互联网仍然失败,直到我回滚更新在哪一点上它的工作。 然后再向前滚动,问题就消失了。

大多数时候我可以达到服务器稳定和生产使用的一个点,只要我不应用任何更新。

有没有人有任何远程类似的经验?

我想我会发布一个更新,现在解决了问题。

正如它发生,Windows更新是一个完整的红鲱鱼。 恰巧碰巧这是我在问题发生时正在运行的更新,但事实上,它似乎只是重新启动导致TCPIP堆栈死亡的过程。 我可以通过简单的重新启动多次重新创build问题,然后通过Netsh Winsock Reset进行重置,重启将重新启动。 奇怪的是,经常卸载最近的更新和重新启动会有相同的效果 – 但并不总是。 它背后是什么? 这似乎是NIC卡。 虽然最新的固件和驱动程序,RSS(接收端缩放)的设置之一是造成这个问题。 这允许NICstream量分布在多个处理器上,而不是仅限于一个。 典型的性能调整调整会导致比解决问题更多的问题。 我禁用它,嘿,一切都是稳定的。 我可以修补和重新启动我的心脏的内容,而不会丢失TCPIP协议栈:)

一个非常模糊的问题,但也许别人会发现类似的和禁用RSS可能会有所帮助。