几个星期前我们在这里build立了一个新的服务器,我负责非正式的pipe理。
除了一件事外,几乎所有事情都完美无缺:每隔一段时间,事情就会毫无征兆地挂起。
关于这个悬挂的一些事实:
有关机器/环境的其他一些事实:
我不期望在这里有任何简单的答案。 我想知道他可以有条不紊地确定这个问题的根本原因,不pipe是一个行为不端的服务,有缺陷的硬件,还是其他的东西。
有没有什么logging我可以设置,这将帮助我到这个底部? 任何硬件诊断或远程监控? 除此之外,我还能做些什么来帮助我发现实际发生的事情,或者至less能够消除那些没有错的东西?
只是重申一下,我真的不想开始猜测可能的原因,并采取试验性的方法,因为一次至less要有好几天的时间才能得出决定性的结果。 我正在寻找解决scheme来可靠地追踪问题的来源。
好的地方开始
http://blogs.technet.com/b/askperf/archive/2007/09/25/troubleshooting-server-hangs-part-one.aspx
在日志中根本没有任何东西,也没有办法重现这个问题,所以你继续下去的时间减less了很多,所以如你所要求的那样,要更有条理。
如果这是来自顶级供应商的硬件,请运行其诊断程序。 IBM,戴尔,惠普都有诊断套件和免费的监控套件(分别是Director,SIM和OpenManage)。
按照时间顺序,这是什么时候开始发生的,并且在此之前在服务器上或附近做了什么改变? 新的硬件安装(和/或驱动程序),更新AV软件,新的RAM? 你说这是一个新的服务器 – 对你来说是新的,还是对组织来说是新的?
你可以在沙箱中P2V,看看问题是否存在?
是否可能与增加的负载有关 – 你可以让它发生,或猜测(或显示一些图),看看有更多的人在它发生的时间使用它?
这是非常矛盾的,你说你没有硬件诊断,但你想要一个有条不紊的方法来进行…硬件诊断是进行硬件故障的有条不紊的方法。
否则,如果它是一个低级别的软件错误,那么可能(应该?)成为内存转储的地方,而微软将提供一些工具来分析它,尽pipe它们没有提供太多的文档来理解低级别的进程,所以它可能是死路一条。
可能,应该……我已经用很长时间来试验这些东西了! 问题通常是你正在处理闭源,所以你几乎是自己的!
也许来自微软的支持?