RAID问题也许? 在一小时左右的正常运行时间之后使服务器无响应

一个IT人员完全失败后来到我的客户办公室升级服务器上的硬盘(Windows 2003 RC2),我们的服务器现在基本上是不可用的。 机器将启动,但大约一小时的正常运行时间后,发生了一些事情,不知道是什么,第二个CPU在任务pipe理器中完全变红。 内核模式和CPU使用率为100%。

系统事件日志得到填充这个错误 – 一分钟4-5:

设备\ Device \ Scsi \ viamraid1的驱动程序由于长时间不活动而检测到端口超时。 所有相关的公共汽车都被重新设置,以清除状况。

我甚至让我跑了9个小时后,我离开了这个时间框架中有2000多这些消息。

服务器无法使用,导致我的客户完全无法做生意。 我不是一个IT人(我是程序员),这是感恩节,而我完全不在我的元素之内。

任何人有任何关于这个消息的想法? 曾经见过吗? 它解决了吗?

更多信息:服务器在RAID 0(我认为,或RAID 1)arrays中有2个驱动器。 SCSI驱动器。 以前的IT人员搞得这么混乱,以至于他把硬盘从RAID中拿出来,而现在启动的时候,必须引导到刚刚读取boot.ini的0,然后我们必须select从硬盘1启动。由于某些原因,我们不能开机启动1。

起初,我认为这个问题是与SQL Server相关的,就在服务器翻出之前,我们开始了一个密集的查询,但是即使在我停止了所有的SQL服务之后,重新启动等等,一个小时之后,它仍然自行翻转。 服务器上没有任何事情发生。 我的意思是,没有人在办公室,没有任何stream程开始(我知道)等刚刚摆脱出来。

这是一个威盛SATA芯片组,让我的皮肤爬行在一个“服务器”。 它已经知道了各种硬件的兼容性问题,电源供应器的所有产品都是通过威盛规格产生电压给具有特定固件的希捷HD。 如果你在两个驱动器之间select,那么你不使用硬件RAID,可能是软件,但不能没有更多的信息。

猜测:芯片组与新的硬盘不兼容,当他们做了部分自我testing时,芯片组会发生超时错误(似乎是正确的时间框架)。

我开始寻找最新的MB,芯片组和HDs固件。 然后是芯片组和SATA控制器的最新驱动程序。