在我的办公室,我们有一个服务器,我们怀疑其RAID控制器(HP Smartarray)失败。 冷启动,但是,并不表示任何东西。
任何人都可以推荐一个方法来压力testing控制器?
症状,让我怀疑失败的控制器:
在XenServer控制台上运行dmesg我看到许多与此类似的消息:
end_request: I/O error, dev tda, sector 253655584
(扇区号码是不一样的)
当我们将VM移动到另一个物理主机时,我们不再看到上面的消息
dmesg不再发出上述消息 在Google上进行的search表明,上述消息通常与失败的SmartArray控制器相关联。
我怎样才能确保SmartArray控制器失败?
HP Smart Array控制器不会经常失败。 通常失败是突然的,而不是随着时间的推移而降低。
无论哪种方式,都可以通过引导服务器附带的HP SmartStart DVD并运行HP arrays诊断实用程序(ADU) ,在arrays上运行脱机诊断。
您没有指出您的服务器或RAID控制器的型号或一代(这些是有用的),但链接的DVD映像应该覆盖最新的HP系统。
就运行在线压力testing而言, 压力效用对于这个目的是有好处的。
当一个驱动器缓慢失效时,我经历了RAIDarrays的不稳定行为,但是还不足以完全死亡或超过计数器阈值来指示失败。
第一:我假设你已经将RAID设置成某种冗余configuration,如RAID 10或RAID 5? 并且您已经configuration了热备件(或者至less有一个备用驱动器)?
启动hparrayspipe理软件并查看每个驱动器的SMART数据。 找出有其他错误显着更多的驱动器。
从您确定的驱动器开始,拿出一个驱动器。 如果有的话,等待热备份重build。 然后再testing,看看情况是否改善。 如果是这样,那么你已经find了你的驱动器。 如果没有,请重新安装驱动器并重复下一步。
另外,根据我的经验,升级硬盘驱动器和控制器上的固件可以提高对故障驱动器的检测能力。