在Windows 2003中排除networking连接丢失的故障 – 还有什么要检查的?

我们在数据中心面临一个奇怪的问题。 我们的备份服务器(运行EMC Networker)在凌晨3:00左右每隔一天都会断开networking连接(备份计划从午夜开始)。 停电2小时后,networking连接自动恢复并恢复正常。

我们观察到:

它不太可能成为networking问题,因为它直接连接到服务器场交换机(没有任何中间节点的二层连接)。 此外,使用Broadcomm Teaming将服务器连接到两个不同的交换机以实现负载平衡。

a)如果是与交换机有关的问题,则两个networking端口不太可能closures,因为它们连接到不同的交换机。

b)由于同一个Vlan中的其他设备没有问题,所以也排除了广泛的问题。

c)交换机接口状态始终为高。 但是在停机期间有很多数据包丢失 – 可以归因于备份服务器的高接口利用率(接近100%)

d)networking连接恢复无任何改变。

下一个可疑是Windows服务器上的资源利用率。 CPU和内存都很less超过80%,但是网卡利用率却惊人地高(接近100%)

不确定如何调查?

我怀疑是驱动程序问题还是双面打印不匹配。 尝试升级驱动程序,并检查两端的双工是相同的。 检查交换机的以太网统计信息(如果有错误,冲突等)。

什么意思是失去networking连接 ? 它不可达,但界面已经启动了? 它可达,但有很多丢包?

你有没有尝试更换网卡?

你怎么认定它失去了networking连接? 你到底是什么意思? 你有什么监控它告诉你无法联系到吗? 事件日志中是否有任何内容,如果是的话?

如果networking使用率很高,意味着networking完全饱和,您可能会看到什么似乎是丢失的连接。 然而根据你的描述很难说。 我的猜测,虽然是你的备份工作是最大限度的你的pipe道。 你有备份工作,每隔一天运行一次:)

这是一个很长的,但也许你的networking上的另一个设备有相同的IP地址? 这肯定会造成交通问题。

它是什么样的开关?

在发生这种特定问题时,同一台交换机上的其他设备是否会遇到任何通信问题? 尽pipe这种转变很less而且不太可能,但是在这种转变中,你可能会耗尽有限的资源,从某种意义上说,你自己也是这样。

另外,如果你有防止DOS攻击的机制,那么他们可能会在有问题的服务器上黑洞,直到使用模式恢复正常。