我能做些什么来确定Windows服务器挂起/冻结的根本原因？

几个星期前我们在这里build立了一个新的服务器，我负责非正式的pipe理。

除了一件事外，几乎所有事情都完美无缺：每隔一段时间，事情就会毫无征兆地挂起。

关于这个悬挂的一些事实：

有关机器/环境的其他一些事实：

我不期望在这里有任何简单的答案。我想知道他可以有条不紊地确定这个问题的根本原因，不pipe是一个行为不端的服务，有缺陷的硬件，还是其他的东西。

有没有什么logging我可以设置，这将帮助我到这个底部？ 任何硬件诊断或远程监控？ 除此之外，我还能做些什么来帮助我发现实际发生的事情，或者至less能够消除那些没有错的东西？

只是重申一下，我真的不想开始猜测可能的原因，并采取试验性的方法，因为一次至less要有好几天的时间才能得出决定性的结果。我正在寻找解决scheme来可靠地追踪问题的来源。

好的地方开始

在日志中根本没有任何东西，也没有办法重现这个问题，所以你继续下去的时间减less了很多，所以如你所要求的那样，要更有条理。

如果这是来自顶级供应商的硬件，请运行其诊断程序。 IBM，戴尔，惠普都有诊断套件和免费的监控套件（分别是Director，SIM和OpenManage）。

按照时间顺序，这是什么时候开始发生的，并且在此之前在服务器上或附近做了什么改变？新的硬件安装（和/或驱动程序），更新AV软件，新的RAM？你说这是一个新的服务器 – 对你来说是新的，还是对组织来说是新的？

你可以在沙箱中P2V，看看问题是否存在？

是否可能与增加的负载有关 – 你可以让它发生，或猜测（或显示一些图），看看有更多的人在它发生的时间使用它？

这是非常矛盾的，你说你没有硬件诊断，但你想要一个有条不紊的方法来进行…硬件诊断是进行硬件故障的有条不紊的方法。

否则，如果它是一个低级别的软件错误，那么可能（应该？）成为内存转储的地方，而微软将提供一些工具来分析它，尽pipe它们没有提供太多的文档来理解低级别的进程，所以它可能是死路一条。

可能，应该……我已经用很长时间来试验这些东西了！问题通常是你正在处理闭源，所以你几乎是自己的！

也许来自微软的支持？