DMZ中前端Exchange Server 2003上的磁盘超时

我有两台前端Exchange 2003服务器,都是虚拟机,两者都在不同的物理Linux机器上,在我的DMZ上运行vmware服务器。

几天前,我所有的Nagios警报都超时了,其中一个ping检查的错误率很高。 在这个前端交换虚拟机上,我看到以下内容似乎表明在这段时间在事件查看器的系统部分中的磁盘超时/问题(其他部分不会很远回成为垃圾邮件通知,将有解决这个问题):

Event Type: Error Event Source: vmscsi Event Category: None Event ID: 9 Date: 12/12/2009 Time: 9:25:19 AM User: N/A Computer: FOO Description: The device, \Device\Scsi\vmscsi1, did not respond within the timeout period. 

在Linux主机上,我没有看到/ var / log / messages或/ var / log / vmware(或者其他任何东西)中的任何提示。 在sar日志中,我确实看到了一个更高的IOWait〜22,然后我在其他地方看到了,通常只有在备份运行时才会出现在11左右,而这段时间并不是这样。 可能这是从磁盘arrays中掉出来的,有人知道我怎么检查Poweredge 2950(使用dset?)。

在另一台前端虚拟机上,我得到了以下内容(这个,我真的不知道它是什么意思,主浏览器?):

 Event Type: Error Event Source: MRxSmb Event Category: None Event ID: 8003 Date: 12/12/2009 Time: 9:33:16 AM User: N/A Computer: FOO Description: The master browser has received a server announcement from the computer FOO02 that believes that it is the master browser for the domain on transport NetBT_Tcpip_{..... The master browser is stopping or an election is being forced. 

所以除了上面的问题之外,我真的想搞清楚发生了什么,因为一切似乎都已经自行恢复,有什么想法?

更新:
发现这个对我来说是新的megacli工具,但是从这个事件发生的第二天开始,我看到了很多:

 Code: 0x00000071 Class: 0 Locale: 0x02 Event Description: Unexpected sense: PD 03(e1/s3), CDB: 28 00 0a 8c 60 5d 00 00 08 00, Sense: f0 00 03 0a 8c 60 5d 0a 00 00 00 00 11 00 00 00 00 0 Event Data: =========== Device ID: 3 Enclosure Index: 1 Slot Number: 3 

/opt/MegaRAID/MegaCli/MegaCli -AdpEventLog -GetEvents -f events.log -aALL && cat events.log 。 这听起来不太好,谁知道这是什么意思?

主浏览器事件是正常的,不相关,可以忽略。

RAID日志是神秘的,但是因为它是列表slot3,所以我会认为它不喜欢槽3中的驱动器。在戴尔或LSI的站点上应该有关于该事件的文档。

您可以通过运行arraysvalidation来testingarrays。 我不确定您是否可以从操作系统中的该实用程序执行此操作,但可以从引导时访问的RAID设置实用程序运行。

如果您有一个空闲的插槽和驱动器可用,那么您可以放入一个新的驱动器,使其成为一个全局热备用,在slot3中拉动驱动器,让一切故障转移到备用。 然后,您可以在没有时间压力的情况下testing/更换slot3驱动器。