为什么我们的RAIDarrays失败？

我们有一个旧的HP DL380 G3和一个RAID 10arrays中的6x36GB Ultra320 SCSI驱动器。我们仔细地监视驱动器，因为它们是旧的 – SMART故障前的迹象都说OK。然后4天后，2驱动器失败（实际上驱动器可能没有物理故障，但有2个驱动器上的数据损坏）。这怎么可能发生？我不是一个很好的相信和偶然的信徒。

我可以相信一次驱动器故障，但多次故障导致我相信还有更多事情正在发生。我听说DL380的SCSI背板可能会失效 – 任何人都可以从经验中确认这一点吗？我们应该更换SCSI背板吗？我们应该在重buildarrays时更换所有驱动器吗？

编辑：我已经查看了我们最近logging在这个arrays的驱动器上的累计运行时间的一些统计数据。失败的两个驱动器上有0.6和2.7个运行年。在我看来，这样做的理论是，驱动力完全以相同的速度恶化，因此失败得非常紧密。除非积累的运行小时数据不比SMART更值得信赖？

多个驱动器快速连续失败并不像人们想象的那样罕见。故障往往遵循所谓的浴缸曲线 – 由于制造缺陷被强调为失败，在驱动器的典型寿命中下降到相对较低的速率，然后随着devise寿命的磨损而再次上升，这是一个高的初始速率。驱动器是机械和服务器驱动器不断运行。

当一个驱动器出现故障时，另一个故障的可能性仍然稍微高一些，但是这种故障通常会伴随着增加的压力，而这种故障通常是由RAID重build过程引起的，这个过程迫使驱动器执行相当多的IO。

最后，SMART作为一个可靠的可靠指标并不存在很好的声誉，但有一些好处，但总体来说并不是很好 – 有一些非常好的长期研究结果来自谷歌，你可以在这里find（大盘失效趋势驱动人口）。

基本的信息是，当你长时间运行一个RAID包的时候，你的风险会高于许多人所期待的（多个驱动器故障报告的数量就是最好的certificate）。第二个信息是RAID可以用来平均提高可用性，但是总是要确保你有一个可以接受的备份策略，以防万一你是一个不幸的人。

G3现在已经很老了，我想你正在看MTBF的钟形曲线的另一边。

你有没有检查你的环境监测logging？任何电力或冷却事件？

我没有任何惠普硬件的经验，所以我不能说这个。但SMART在预测驱动器故障方面并不是特别好。