2个SAN磁盘在相同的隔夜期间失效

我们在单独的数据库中有2台HP Lefthand SAN服务器。上周，每个SAN有1个硬盘故障。他们在SAN上处于不同的位置。两个数据机房都能很好地保护UPS不受电源问题的影响。

任何可能影响到这个的想法？

谢谢，卡尔

有几件事情浮现在脑海里：

你的磁盘都共享相同的环境。如果曾经发生过强调磁盘的事件，则该SAN中的所有磁盘都会受到影响。货架是在组装，交付，安装时大致处理的？数据中心是否曾经发生过stream事件？
这些磁盘是同一批制造吗？也许他们是有人在星期一糟糕的情况下做出来的？
当一个驱动器发生故障时，该arrays中的其余驱动器受到压力，因为控制器读取/写入疯狂以重build奇偶校验。如果还有其他的驱动器已经处于边缘状态，那么这种利用方式的突然改变也可能会把它们推向边缘。随着驱动器变大，重build时间变长，问题变得更糟。

听起来很奇怪，但他们是热备盘吗？

我已经看到，在热备份出现并且必须接pipe的情况下，连续的（尽pipe不是同一天的情况）失败。如果空闲一段时间，使用它可能会导致已经存在的问题开始出现。至less这是我的理论，我坚持下去！ =）

听起来对我来说是非常随意的，我们有我们支付更换磁盘的人，他们是什么样的磁盘制造商/型号/types/速度/configuration不在企业环境中工作，只要他们的制造商认出。不过要留意他们。

到目前为止，对我来说，看起来像是一个不幸的例子。 24个磁盘，两个在同一周失败？不幸的是，但它可能发生。特别是如果有问题的磁盘是7.2K RPM的驱动器不打算进行24×7的操作。在目前的LeftHand产品的QuickSpecs表中没有看到500GB的驱动器，但是我知道惠普确实销售了500GB的7.2K SATA驱动器，因为我有一堆MSA1500。

如果那些确实和我一样，我一点都不感到惊讶。那些来自早期SATA驱动器的型号不如SAS / SCSI同类产品，所以在这里显示出更高的故障率。然而，第一年之后，坏苹果就出来了，我从此没有任何失败。但是我在那里每个月都会经历一段时间。 5.5TB的LUN是我build议运行这些驱动器的最大的，因为重build时间（现在你可能正在学习）需要很长时间。

如果他们真的是450GB的15K SAS硬盘，那么可能性就不大可能了。有时这些事情发生。

更广泛地说，我知道惠普喜欢成对销售LeftHand节点。假设这两个单位都是同时获得的，所有的驱动器来自相似批次的可能性相当高。正如克里斯·S指出的，不好的批次发生。由于5.5TB RAID5集可能需要一周的时间才能重build（没有LeftHand SAN可用，但是我知道基于MSA的arrays需要一周的时间），在此期间，驱动器的负载要比正常，可能会导致级联失败。不过，你说“上周”表明他们已经重build了一段时间了，只是寻找导致失败的明星的可疑对准。如果他们在重build过程中幸存了下来，那么就不太可能有严重的不良批次，可能只是稍微差一些。但要注意失败率。

2个星期内是一个数据点，而不是一个趋势。不幸。

他们是否同时购买？可能来自相同批次的HD，因此共享类似的制造exception。如果是这种情况，您应该尽快更换这些驱动器，在其他任何人失败之前。

存储系统上的磁盘故障通常是抢先式磁盘故障。硬盘驱动器在一段时间内跟踪一系列的读写错误（这些情况可能会中断服务），一旦超过阈值，存储系统就会将硬盘标记为坏，以防止数据损坏。也许你的存储系统有预定的磁盘检查预防性维护。这可以解释在同一时间磁盘被标记为坏。