如何解决挂起的Windows(2003)服务器的根本原因?

我有一对运行MS SQL Server(2008 EE)的Windows(2003 Server)服务器,每隔几个月就会挂起一次。 这一直间歇性地发生:(自从我们开始使用服务器以来,在过去的15个月里已经非常多了。

症状如下:

  • 我无法远程桌面进行故障排除; 当我尝试时,我被困在一个空白的黑色屏幕上,从来没有提供login提示
  • 我仍然可以ping服务器
  • 我仍然可以打开一个SQL连接到服务器,而且,当我做一个“select getdate()”的时候,奇怪地/奇怪地,它返回的时间似乎被困在一秒钟的确切的一小部分时间(我认为)服务器雄。 重复尝试“selectgetdate()”不断获得相同的date,这表明时钟被冻结。
  • 文件共享尝试连接到挂起的服务器失败并显示以下错误消息:“\ ServerName is not accessible。您可能没有权限使用此networking资源。请联系此服务器的pipe理员以确定您是否具有访问权限。不与主域控制器的时钟同步“。 这与一个冷冻时钟一致。
  • 重新启动后,如果我调查Windows事件查看器日志,我可以看到许多安全访问(来自我和其他人),我认识到是在“下降”期间的login尝试,但所有在安全日志中都与服务器挂起的时间戳。 这也表明时钟被冻结。 应用程序或系统事件日志中没有明确的原因。

我有一个服务器上的本地pipe理员帐户,并正在获取一个域的凭证pipe理员帐户更好的远程pipe理访问。

惠普应该是支持这些机器,并有一些低级别的ILO2访问,但他们似乎无法find根本原因。

重启将“解决”这个问题,但我想find根本原因并解决问题。 有没有人见过这种奇怪的时钟行为? (如果它只是一个服务器,我可能会说一个坏的硬件时钟,但两个?)任何人都可以告诉我什么,我应该尝试排除这种情况来find根源(或我应该告诉惠普尝试?)

正如Nixphoe指出的那样 – 事件日志,事件日志,事件日志将是第一个看的地方。

它“听起来”像你可能有某种内存泄漏条件与安装的应用程序和/或configuration之间的共同之处。 跟踪内存使用情况的主题有多个可用资源。 可能需要跨时间跟踪以识别违规应用程序和/或条件。

User48838是正确的。 这听起来像是内存泄漏。

有关检测内存泄漏的信息,请参阅 Microsoft的这篇文章: http : //technet.microsoft.com/en-us/library/cc938582.aspx这解释了您必须考虑性能计数器。

此外,还有一个来自Microsoft的debugging诊断工具非常有用的工具。 我已经使用了几次,它确实做了这个工作。 以下是关于如何使用它的一些说明。

你能给我们更多关于服务器的细节吗? 规格,网卡,OS sp和比特尺寸等? 我知道HP Proliant服务器上的Win 2k3 + SQL 2008存在问题,导致时钟漂移或无响应的服务器。 但是,我不确定这是否适用于这种情况,因为我没有足够的详细信息,但为了防止以下情况,我向您提供Microsoft的文章: http : //support.microsoft.com/kb/2022911

我希望这有帮助。