我们有一个旧的HP DL380 G3和一个RAID 10arrays中的6x36GB Ultra320 SCSI驱动器。 我们仔细地监视驱动器,因为它们是旧的 – SMART故障前的迹象都说OK。 然后4天后,2驱动器失败(实际上驱动器可能没有物理故障,但有2个驱动器上的数据损坏)。 这怎么可能发生? 我不是一个很好的相信和偶然的信徒。
我可以相信一次驱动器故障,但多次故障导致我相信还有更多事情正在发生。 我听说DL380的SCSI背板可能会失效 – 任何人都可以从经验中确认这一点吗? 我们应该更换SCSI背板吗? 我们应该在重buildarrays时更换所有驱动器吗?
编辑:我已经查看了我们最近logging在这个arrays的驱动器上的累计运行时间的一些统计数据。 失败的两个驱动器上有0.6和2.7个运行年。 在我看来,这样做的理论是,驱动力完全以相同的速度恶化,因此失败得非常紧密。 除非积累的运行小时数据不比SMART更值得信赖?
多个驱动器快速连续失败并不像人们想象的那样罕见。 故障往往遵循所谓的浴缸曲线 – 由于制造缺陷被强调为失败,在驱动器的典型寿命中下降到相对较低的速率,然后随着devise寿命的磨损而再次上升,这是一个高的初始速率。 驱动器是机械和服务器驱动器不断运行。
当一个驱动器出现故障时,另一个故障的可能性仍然稍微高一些,但是这种故障通常会伴随着增加的压力,而这种故障通常是由RAID重build过程引起的,这个过程迫使驱动器执行相当多的IO。
最后,SMART作为一个可靠的可靠指标并不存在很好的声誉,但有一些好处,但总体来说并不是很好 – 有一些非常好的长期研究结果来自谷歌,你可以在这里find(大盘失效趋势驱动人口) 。
基本的信息是,当你长时间运行一个RAID包的时候,你的风险会高于许多人所期待的(多个驱动器故障报告的数量就是最好的certificate)。 第二个信息是RAID可以用来平均提高可用性,但是总是要确保你有一个可以接受的备份策略,以防万一你是一个不幸的人。
G3现在已经很老了,我想你正在看MTBF的钟形曲线的另一边。
你有没有检查你的环境监测logging? 任何电力或冷却事件?
我没有任何惠普硬件的经验,所以我不能说这个。 但SMART在预测驱动器故障方面并不是特别好。