我们有一台运行Windows Server 2003 R2的Dell PowerEdge 2950,安装了Service Pack 2的Enterprise x64。
最近,我们遇到了与该服务器发生多个STOP错误。 幸运的是,它是作为一个机器故障的地方,所以它不会影响我们的生产环境。 显示在服务器日志中的错误是这样的:
Event Type: Error Event Source: System Error Event Category: (102) Event ID: 1003 Description: Error code 000000000000009c, parameter1 0000000000000004, parameter2 fffffadf90881240, parameter3 00000000f2000000, parameter4 0000000000060151.
到目前为止,我所能find的最好的东西是9C错误是某种通用硬件问题。 其他参数在缩小这个范围方面一直没有用。
自去年投入使用以来,没有任何硬件改动。 它有一个双胞胎盒子是相同的(主要是这个故障作为一个故障)没有经历的行为。 最近的一次软件更新是在2009年4月16日应用了多个安全更新。 蓝屏在5/9/2009开始发生。
有没有任何诊断可以帮助解决这个问题?
见Kazna3的回答http://www.dal.com/archive/index.php/t-49205.html他/她写道:
但首先,BSOD是相当古老的。 0x9C BUGCHECK是硬件相关的,众所周知的。 其余的与处理器有关,这是一个处理器故障或只是处理器驱动程序。 🙁
看看这里的解释:0x9C:MACHINE_CHECK_EXCEPTION( http://msdn2.microsoft.com/en-us/library/ms795775.aspx )
当我们拿到P4的时候,微软曾经提醒过:
步骤1)更新你的BIOS(硬件补丁称为微码更新骑在这里,如果你的处理器或AMLI有勘误,这里将被修复)。
步骤2)立即致电硬件供应商,因为这是一个严格的硬件错误。
步骤3)更换硬件,从CPU开始。
换句话说,你的硬件可能是borked。 可能是褐色,或高热。 仅仅因为一个组件是固态的并不意味着它不能失败。 例如:内存一直没有通过,这是因为它装有防静电袋。
你有没有物理访问机器? 当这种情况发生时,状态LCD是否提供错误代码,或者看起来不知所措?
如果您安装了OpenManage,那么您已经完成了安装。 检查OpenManage日志以查看是否logging了任何硬件错误。 OpenManage还包括一个function齐全的诊断套件。 查看http://www.dell.com/downloads/global/power/ps1q06-20050259-Thathdydy.pdf获取使用它的解释。 戴尔的支持通常会运行一些CLI诊断testing,因此最好与他们联系。
作为一个通用步骤(并排除支持要求您这样做), 更新您的BIOS和embedded式服务器pipe理BMC固件 。
如果您有备件,请更换您的CPU。
另外,这可能听起来很奇怪,但如果您安装了DRAC,请将其删除。 我有一个2850给CPU错误代码(E07F0),随机冻结,偶尔无法启动。 DRAC交换出来,纠正了它,从那以后一直没有问题。
如果这些都不起作用,现在是给戴尔打个电话的时候了。 这是低于OS层的100%。
请参阅Microsoft知识库文章939315 – storport驱动程序可能会导致此问题…..您是否在重新引导或closures时看到错误或仅在运行时出现?