2个SAN磁盘在相同的隔夜期间失效

我们在单独的数据库中有2台HP Lefthand SAN服务器。 上周,每个SAN有1个硬盘故障。 他们在SAN上处于不同的位置。 两个数据机房都能很好地保护UPS不受电源问题的影响。

任何可能影响到这个的想法?

谢谢,卡尔

有几件事情浮现在脑海里:

  1. 你的磁盘都共享相同的环境。 如果曾经发生过强调磁盘的事件,则该SAN中的所有磁盘都会受到影响。 货架是在组装,交付,安装时大致处理的? 数据中心是否曾经发生过stream事件?
  2. 这些磁盘是同一批制造吗? 也许他们是有人在星期一糟糕的情况下做出来的 ?
  3. 当一个驱动器发生故障时,该arrays中的其余驱动器受到压力,因为控制器读取/写入疯狂以重build奇偶校验。 如果还有其他的驱动器已经处于边缘状态,那么这种利用方式的突然改变也可能会把它们推向边缘。 随着驱动器变大,重build时间变长,问题变得更糟。

听起来很奇怪,但他们是热备盘吗?

我已经看到,在热备份出现并且必须接pipe的情况下,连续的(尽pipe不是同一天的情况)失败。 如果空闲一段时间,使用它可能会导致已经存在的问题开始出现。 至less这是我的理论,我坚持下去! =)

听起来对我来说是非常随意的,我们有我们支付更换磁盘的人,他们是什么样的磁盘制造商/型号/types/速度/configuration不在企业环境中工作,只要他们的制造商认出。 不过要留意他们。

到目前为止,对我来说,看起来像是一个不幸的例子。 24个磁盘,两个在同一周失败? 不幸的是,但它可能发生。 特别是如果有问题的磁盘是7.2K RPM的驱动器不打算进行24×7的操作。 在目前的LeftHand产品的QuickSpecs表中没有看到500GB的驱动器,但是我知道惠普确实销售了500GB的7.2K SATA驱动器,因为我有一堆MSA1500。

如果那些确实和我一样,我一点都不感到惊讶。 那些来自早期SATA驱动器的型号不如SAS / SCSI同类产品,所以在这里显示出更高的故障率。 然而,第一年之后,坏苹果就出来了,我从此没有任何失败。 但是我在那里每个月都会经历一段时间。 5.5TB的LUN是我build议运行这些驱动器的最大的,因为重build时间(现在你可能正在学习)需要很长时间。

如果他们真的是450GB的15K SAS硬盘,那么可能性就不大可能了。 有时这些事情发生。

更广泛地说,我知道惠普喜欢成对销售LeftHand节点。 假设这两个单位都是同时获得的,所有的驱动器来自相似批次的可能性相当高。 正如克里斯·S指出的,不好的批次发生。 由于5.5TB RAID5集可能需要一周的时间才能重build(没有LeftHand SAN可用,但是我知道基于MSA的arrays需要一周的时间),在此期间,驱动器的负载要比正常,可能会导致级联失败。 不过,你说“上周”表明他们已经重build了一段时间了,只是寻找导致失败的明星的可疑对准。 如果他们在重build过程中幸存了下来,那么就不太可能有严重的不良批次,可能只是稍微差一些。 但要注意失败率。

2个星期内是一个数据点,而不是一个趋势。 不幸。

他们是否同时购买? 可能来自相同批次的HD,因此共享类似的制造exception。 如果是这种情况,您应该尽快更换这些驱动器,在其他任何人失败之前。

存储系统上的磁盘故障通常是抢先式磁盘故障。 硬盘驱动器在一段时间内跟踪一系列的读写错误(这些情况可能会中断服务),一旦超过阈值,存储系统就会将硬盘标记为坏,以防止数据损坏。 也许你的存储系统有预定的磁盘检查预防性维护。 这可以解释在同一时间磁盘被标记为坏。