帮助识别未知服务器问题的工具

我们一直在努力寻找一个问题,那就是我们所有的定制系统至less每天崩溃一次。 我们并没有改变我们所有的系统,我们试图找出导致所有这些崩溃的变化。

我们也在做各种testing和控制的变化,试图缩小问题的范围。

不过,我想知道是否有一个Windows服务器监控工具,可以让我们深入了解操作系统,硬件等发生了什么? 我们需要比标准事件日志更好的东西,而这些日志在目前没有被certificate是非常有用的。

任何指导将不胜感激。

如果我在你的鞋子里,我会从Process Monitor开始。 它将跟踪给定应用程序的所有文件,networking和registry访问(例如打开给定文件,从文件读取,打开registry项,将数据写入该关键字等等)。 然后,您可以查看由此生成的日志,以查看崩溃的直接原因,并从那里反向工作。