我能做些什么来确定Windows服务器挂起/冻结的根本原因?

几个星期前我们在这里build立了一个新的服务器,我负责非正式的pipe理。

除了一件事外,几乎所有事情都完美无缺:每隔一段时间,事情就会毫无征兆地挂起。

关于这个悬挂的一些事实:

  • 这不是一个单一的应用程序或服务; 整个系统是不响应的。
  • 没有显示(监视器就好像没有VGA信号一样)。
  • 电源LED亮起,风扇正在运行。
  • 按下电源button什么也不做(通常会closures机器)。
  • 坪通常超时; 一旦它响应,另一次我得到“目标主机无法访问”。
  • 事件日志在挂起之前不显示任何内容(从字面上看什么也没有),直到硬重启。
  • 没有任何性能问题,奇怪的错误,或其他明显的迹象表明即将到来的厄运导致最终的挂起。
  • 机器一般不是重负载(它是为了开发,而不是生产),并且挂起似乎在非高峰时段(午夜和上午6点之间)发生。

有关机器/环境的其他一些事实:

  • Windows Server 2008 R2
  • 运行SQL Server 2008和IIS(没有其他)
  • 所有最新的驱动程序,安装的补丁等
  • 没有供应商提供的诊断(不是“顶级”)。
  • 该机器是全新的,不仅仅是重新格式化或重新使用。 尽pipe机器还不到一个月的时间,但没有最近的变化。

我不期望在这里有任何简单的答案。 我想知道他可以有条不紊地确定这个问题的根本原因,不pipe是一个行为不端的服务,有缺陷的硬件,还是其他的东西。

有没有什么logging我可以设置,这将帮助我到这个底部? 任何硬件诊断或远程监控? 除此之外,我还能做些什么来帮助我发现实际发生的事情,或者至less能够消除那些没有错的东西?

只是重申一下,我真的不想开始猜测可能的原因,并采取试验性的方法,因为一次至less要有好几天的时间才能得出决定性的结果。 我正在寻找解决scheme来可靠地追踪问题的来源。

在日志中根本没有任何东西,也没有办法重现这个问题,所以你继续下去的时间减less了很多,所以如你所要求的那样,要更有条理。

如果这是来自顶级供应商的硬件,请运行其诊断程序。 IBM,戴尔,惠普都有诊断套件和免费的监控套件(分别是Director,SIM和OpenManage)。

按照时间顺序,这是什么时候开始发生的,并且在此之前在服务器上或附近做了什么改变? 新的硬件安装(和/或驱动程序),更新AV软件,新的RAM? 你说这是一个新的服务器 – 对你来说是新的,还是对组织来说是新的?

你可以在沙箱中P2V,看看问题是否存在?

是否可能与增加的负载有关 – 你可以让它发生,或猜测(或显示一些图),看看有更多的人在它发生的时间使用它?

这是非常矛盾的,你说你没有硬件诊断,但你想要一个有条不紊的方法来进行…硬件诊断是进行硬件故障的有条不紊的方法。

否则,如果它是一个低级别的软件错误,那么可能(应该?)成为内存转储的地方,而微软将提供一些工具来分析它,尽pipe它们没有提供太多的文档来理解低级别的进程,所以它可能是死路一条。

可能,应该……我已经用很长时间来试验这些东西了! 问题通常是你正在处理闭源,所以你几乎是自己的!

也许来自微软的支持?