我们的新服务器已经运行了几个月基本上很好。 然而两次,它没有明显的原因就把它closures了。
最近一次发生在几天前的11:41。 事件日志显示没有什么不愉快的,最后一个条目是安全日志中相当平凡的审计条目。 UPS日志显示没有电力问题。 没有什么特别的,因为它是在几个小时后。 当然,晚上十点开始的夜间备份。 备份日志还没有显示任何有趣的内容,只是在备份过程中停下来。 尽pipe服务器configuration为写入内核转储并重新启动,但没有内存转储,系统也没有重新启动。 这是HP Proliant ML330 G6系列服务器。
第二天早上手动重新启动服务器时,logging了以下事件:
Log Name: System Source: EventLog Date: 4/16/2011 8:20:22 AM Event ID: 6008 Task Category: None Level: Error Keywords: Classic User: N/A Computer: XXXXXXXX.xxxxxxxxxxxxxxxx.local Description: The previous system shutdown at 11:41:26 PM on 4/15/2011 was unexpected.
和
Log Name: System Source: Microsoft-Windows-Kernel-Power Date: 4/16/2011 8:20:00 AM Event ID: 41 Task Category: (63) Level: Critical Keywords: (2) User: SYSTEM Computer: XXXXXXXX.xxxxxxxxxxxxxxxx.local Description: The system has rebooted without cleanly shutting down first. This error could be caused if the system stopped responding, crashed, or lost power unexpectedly.
和
Log Name: System Source: USER32 Date: 4/16/2011 8:22:34 AM Event ID: 1076 Task Category: None Level: Warning Keywords: Classic User: XXXXXXXXXXXXXXX\Administrator Computer: XXXXXXXX.xxxxxxxxxxxxxxxx.local Description: The reason supplied by user XXXXXXXXXXXXXXX\Administrator for the last unexpected shutdown of this computer is: Other Failure: System Unresponsive Reason Code: 0x8000005 Problem ID: Bugcheck String: Comment:
我花了一些时间研究这个,发现很less使用。 有人有主意吗?
更新:这里是iLO2日志的相关部分:
305 04/15/2011 23:42:00 Server reset. 306 04/15/2011 23:42:00 Server power removed. 307 04/15/2011 23:42:00 iLO 2 network link down. 308 04/15/2011 23:42:00 iLO 2 network link up at 100 Mbps. 309 04/16/2011 08:17:00 Server power restored.
更新:我增加了分页文件的大小,以允许完整的内核转储,所以如果这真的是Windows崩溃,我将能够看到发生了什么 – 下一次发生。
更新:服务器固件已经是最新的。
更新:有很多更新可用于驱动程序和系统软件。 我已经安装了大部分,现在我只是在等待,看看问题是否再次发生。
这很可能是一个错误的电源开关/ LED电缆套件。 我的ML310 G5是做同样的事情,这是什么解决了这个问题。 显然,这是惠普公司的一个已知问题。
459186-001-02 HEWLETT-PACKARD PROLIANT ML310 G5系统前部LED至系统/ BRD电缆P / N:459186-001-02 – HEWLETT-PACKARD ORIGINALS
机器是否过热? 检查风扇和通风口的尘埃兔子。
您是否安装了HPpipe理代理软件? 您提到Windows事件日志和备份日志,但不提供“硬件”日志。 您也需要查看,因为自发closures可能与硬件问题有关,您将无法看到有关其他任何信息。
我的Server 2008 R2机箱上出现了这个问题。 事实certificate,您的机器使用的Xeon 5000系列CPUS在2008 R2和Hyper-Vangular色方面存在问题。 我在这里假装,假设你已经安装了Hyper-Vangular色,这个问题与我所遇到的问题相同。
有一个来自Microsoft可用HERE的修补程序。 我把它安装在我的系统上,从那以后一直没有问题。
我打算在这里出现waaaaaaay,并说你可能需要固件更新。 来源 。 我们之前在DL380 G6上有类似的东西。
如果这确实是一个系统崩溃,你会在系统日志中发现这样的事件:
Level: Error Source: Bugcheck Event ID: 1001 Text: The computer has rebooted from a bugcheck. The bugcheck was: [...]
此外,被configuration为保存内核转储,然后重新启动,服务器将做到这一点。
没有这样的事件日志和随后的重新启动意味着closures是由外部事件(缺电,硬件故障…)引起的。 此外,你的国际劳工组织日志似乎证实,停电是真正的原因。