我们在单独的数据库中有2台HP Lefthand SAN服务器。 上周,每个SAN有1个硬盘故障。 他们在SAN上处于不同的位置。 两个数据机房都能很好地保护UPS不受电源问题的影响。
任何可能影响到这个的想法?
谢谢,卡尔
有几件事情浮现在脑海里:
听起来很奇怪,但他们是热备盘吗?
我已经看到,在热备份出现并且必须接pipe的情况下,连续的(尽pipe不是同一天的情况)失败。 如果空闲一段时间,使用它可能会导致已经存在的问题开始出现。 至less这是我的理论,我坚持下去! =)
听起来对我来说是非常随意的,我们有我们支付更换磁盘的人,他们是什么样的磁盘制造商/型号/types/速度/configuration不在企业环境中工作,只要他们的制造商认出。 不过要留意他们。
到目前为止,对我来说,看起来像是一个不幸的例子。 24个磁盘,两个在同一周失败? 不幸的是,但它可能发生。 特别是如果有问题的磁盘是7.2K RPM的驱动器不打算进行24×7的操作。 在目前的LeftHand产品的QuickSpecs表中没有看到500GB的驱动器,但是我知道惠普确实销售了500GB的7.2K SATA驱动器,因为我有一堆MSA1500。
如果那些确实和我一样,我一点都不感到惊讶。 那些来自早期SATA驱动器的型号不如SAS / SCSI同类产品,所以在这里显示出更高的故障率。 然而,第一年之后,坏苹果就出来了,我从此没有任何失败。 但是我在那里每个月都会经历一段时间。 5.5TB的LUN是我build议运行这些驱动器的最大的,因为重build时间(现在你可能正在学习)需要很长时间。
如果他们真的是450GB的15K SAS硬盘,那么可能性就不大可能了。 有时这些事情发生。
更广泛地说,我知道惠普喜欢成对销售LeftHand节点。 假设这两个单位都是同时获得的,所有的驱动器来自相似批次的可能性相当高。 正如克里斯·S指出的,不好的批次发生。 由于5.5TB RAID5集可能需要一周的时间才能重build(没有LeftHand SAN可用,但是我知道基于MSA的arrays需要一周的时间),在此期间,驱动器的负载要比正常,可能会导致级联失败。 不过,你说“上周”表明他们已经重build了一段时间了,只是寻找导致失败的明星的可疑对准。 如果他们在重build过程中幸存了下来,那么就不太可能有严重的不良批次,可能只是稍微差一些。 但要注意失败率。
2个星期内是一个数据点,而不是一个趋势。 不幸。
他们是否同时购买? 可能来自相同批次的HD,因此共享类似的制造exception。 如果是这种情况,您应该尽快更换这些驱动器,在其他任何人失败之前。
存储系统上的磁盘故障通常是抢先式磁盘故障。 硬盘驱动器在一段时间内跟踪一系列的读写错误(这些情况可能会中断服务),一旦超过阈值,存储系统就会将硬盘标记为坏,以防止数据损坏。 也许你的存储系统有预定的磁盘检查预防性维护。 这可以解释在同一时间磁盘被标记为坏。