Windows Server 2008偶尔连接将排除故障

在Windows Server 2008 R2物理服务器上运行Dell R710时偶尔会看到(每天2次或3次)“连接丢失”。 我使用术语“连接下降”,因为我不知道如何描述它,但我的意思是说:

  • 服务器停止响应ping
  • 任何RDP连接(或其他types的远程连接)将停止并最终超时
  • 与此服务器上运行的SQLS数据库或IIS的任何连接都将停止/超时

这似乎持续30秒到1分钟。 之后,服务器恢复运行,响应ping,并恢复所有的服务,就像什么都没发生过一样。

该服务器运行以下服务:

  • SQL Server 2005数据库(2个数据库和报告)
  • IIS7 Web服务器(运行2个自定义服务和1个报告站点)

显然,我想找出是什么原因造成的。 服务器的事件日志或其他监视参数中没有任何内容,我可以看到这些参数特别指出了任何问题。 如何尝试缩小是什么导致这个问题的任何提示?

值得考虑下列事实:

  • 我们有5个其他的服务器(其中有3个R410)在同一个机架上运行,在同一个networking上,没有一个似乎显示这个问题
  • 在进程pipe理器中的性能视图的手柄数量约为40,000个句柄(其中lsass.exe似乎需要约7000)
  • 我试图重新启动IIS,看看自定义服务是否造成这种情况; 这意味着我不应该在接下来的几天/周内看到这个问题

更新1:发生此问题时,DRAC仍可访问。 这是一个很奇怪的问题。 我想我们将不得不通过尝试各种解决scheme并检查结果来尝试这个错误。

更新2:我已经和networking人员谈过了,他们证实,由于某种原因,我们服务器的MAC地址被反复从交换机的ARP表中删除 。 确切的原因尚不清楚(可能是连接服务器到交换机的不良线缆,或者NIC始终处于睡眠状态)。 我们已经开始了对默认网关的连续ping,并正在考虑更换电缆。

如果您在此机器上使用多个NIC,请确保您只有一个默认网关定义。

最近我们遇到了这样的问题,并且发现用于后端networking(192.168.xx)的NIC具有指定的默认网关。

如果您login到控制台它仍然是响应?

在受影响的机器的NIC上执行数据包捕获。 Wireshark或Netmon。 这将告诉你在这段时间机器的TCP / IPstream量发生了什么。