HP DL370 G5 hpacucli将2个驱动器显示为预测性故障 – 可以安全地逐个尝试重build吗?

我有:

Openfiler SAN ML370 G5智能arrays6400插槽1arraysB逻辑驱动器2是一个RAID5arrays的6×148GB 10K热插拔驱动器,使680GB无备件

上个星期五,电源熄灭了,这台机器刚刚插上了墙,而且硬化了。 当它恢复时,0-5驱动器的驱动器1和4变为红色,闪烁故障指示灯。 arrays指南中的图表显示,由于“此驱动器已收到预测故障,请尽快更换”。 在命令行hpacucli实用程序报告相同的消息; 预测失败。 活动指示灯正常闪烁。 故障图表示驱动器没有“故障”,直到故障指示灯亮起。

在所有这一切,现在一个星期后,系统保持运行,迄今没有用户报告任何问题 – 所有ESX主机/虚拟机正在使用这个SAN,并仍然正常工作,我手动备份arrays上的所有内容和新的驱动器今天出现。 所以我可以尝试一些东西,没有太多的努力,但我确定只想更换驱动器,如果我小心重build工作。

通常情况下,我会假设,只是一个预测性的失败,我可以逃脱一个一个地replace他们,让他们一次重build一个,并罚款,但是当我运行hpacucli我得到了下列输出的LD

arrays:B接口types:并行SCSI未使用空间:0 MB状态:正常

Logical Drive: 2 Size: 683.6 GB Fault Tolerance: RAID 5 Heads: 255 Sectors Per Track: 32 Cylinders: 65535 Stripe Size: 64 KB Status: OK Array Accelerator: Enabled Parity Initialization Status: Initialization Failed Unique Identifier: 600508B100104B39535153303250000F Disk Name: /dev/cciss/c0d1 Mount Points: None Logical Drive Label: A01E9878P57820K9SQS02PBE24 

所以状态是好的,但奇偶初始化是我在那里吓到的。 任何指导程序,以成功重build赞赏 – 或build议沿着“所有的数据现在怀疑反正,只要更换坏的驱动器,创build一个新的arrays,并恢复,因为你有备份”也很好。 我知道无论如何这都是一个风险。 在尝试更换任何东西之前我应该​​重新启动吗?

在底部完整的hpacucli输出。

似乎如果这个预测性失败只是SMART错误堆积,它仍然会有平价和重build,也许只是慢慢?

非常感谢任何指导,和平!

—充分hpacucli —

arrays:B接口types:并行SCSI未使用空间:0 MB状态:正常

  Logical Drive: 2 Size: 683.6 GB Fault Tolerance: RAID 5 Heads: 255 Sectors Per Track: 32 Cylinders: 65535 Stripe Size: 64 KB Status: OK Array Accelerator: Enabled Parity Initialization Status: Initialization Failed Unique Identifier: 600508B100104B39535153303250000F Disk Name: /dev/cciss/c0d1 Mount Points: None Logical Drive Label: A01E9878P57820K9SQS02PBE24 physicaldrive 1:0 SCSI Bus: 1 SCSI ID: 0 Status: OK Drive Type: Data Drive Interface Type: Parallel SCSI Transfer Mode: Ultra 3 Wide Size: 146.8 GB Transfer Speed: 160 MB/Sec Rotational Speed: 10000 Firmware Revision: HPB8 Serial Number: 3HY83F3Y00007442557Q Model: COMPAQ BD14685A26 physicaldrive 1:1 SCSI Bus: 1 SCSI ID: 1 Status: Predictive Failure Drive Type: Data Drive Interface Type: Parallel SCSI Transfer Mode: Ultra 3 Wide Size: 146.8 GB Transfer Speed: 160 MB/Sec Rotational Speed: 10000 Firmware Revision: HPB8 Serial Number: 3HY8393700007345XU2M Model: COMPAQ BD14685A26 physicaldrive 1:2 SCSI Bus: 1 SCSI ID: 2 Status: OK Drive Type: Data Drive Interface Type: Parallel SCSI Transfer Mode: Ultra 3 Wide Size: 146.8 GB Transfer Speed: 160 MB/Sec Rotational Speed: 10000 Firmware Revision: HPB8 Serial Number: 3HY9NWGY00007524BFV1 Model: COMPAQ BD14685A26 physicaldrive 1:3 SCSI Bus: 1 SCSI ID: 3 Status: OK Drive Type: Data Drive Interface Type: Parallel SCSI Transfer Mode: Ultra 3 Wide Size: 146.8 GB Transfer Speed: 160 MB/Sec Rotational Speed: 10000 Firmware Revision: HPB8 Serial Number: 3HY9PA1N00007523W3DP Model: COMPAQ BD14685A26 physicaldrive 1:4 SCSI Bus: 1 SCSI ID: 4 Status: Predictive Failure Drive Type: Data Drive Interface Type: Parallel SCSI Transfer Mode: Ultra 3 Wide Size: 146.8 GB Transfer Speed: 160 MB/Sec Rotational Speed: 10000 Firmware Revision: HPB8 Serial Number: 3HY72WR9000075216UNS Model: COMPAQ BD14685A26 physicaldrive 1:5 SCSI Bus: 1 SCSI ID: 5 Status: OK Drive Type: Data Drive Interface Type: Parallel SCSI Transfer Mode: Ultra 3 Wide Size: 146.8 GB Transfer Speed: 160 MB/Sec Rotational Speed: 10000 Firmware Revision: HPB8 Serial Number: 3HY9NT3F000075231R9V Model: COMPAQ BD14685A26 

100%安全? 没有。 不涉及arrays重build的操作是完全安全的,特别是对于RAID 5。 大概。

你的问题是重build期间单次读取失败会导致整个卷失败。 而且你要做两次,包括一次已经有困难的驱动器。

理想情况下,在这种情况下,应该让系统停止生产,进行完全备份,删除RAID卷,更换磁盘,重新创buildarrays并恢复备份。

如果你真的不能在这个arrays上花费太多的时间,那么你应该尝试单独更换每个磁盘,并且每次都要等待重build完成,但是不要在没有完全备份的情况下这样做,如果你打算在重build期间保持该系统处于活动状态,请确保首先警告用户在最后一次备份date之后他们将丢失所有数据,并获得他们的批准(毕竟,这是他们的数据,他们应该是决定的他们宁愿采取什么样的风险:安全,但显示停机或不安全,但可能不中断服务)。

我在DL380 G7 P410i RAID5上遇到了同样的问题,刚刚经历了一个非常不愉快的惠普支持经验,我几乎无处可去,和几个不知道发生了什么事情的人打交道,谁也不愿意和他们打交道使问题升级。 参考资料在解释这个错误条件方面同样很差。

无论如何,我已经解决了这个问题。 从我所知道的情况来看,“重build”操作不一定与“奇偶校验初始化”相同。 在我的情况下,我有一个有缺陷的硬盘有很多恢复读取错误,但实际上没有标记为arrays失败。 问题当然是,“如果我更换这个磁盘,逻辑驱动器会失败,因为可能奇偶校验没有被正确写入”,还有“为什么****没有HPpipe理代理报告什么错误? ”。 那么在将所有东西都备份起来并取出有缺陷的磁盘之后,逻辑驱动器一直在运行。 我把更换磁盘和逻辑驱动器状态更改为“恢复”。 恢复完成后,逻辑驱动器状态变回“OK”,但奇偶校验初始化仍然失败。 我不确定它是如何发生的,但这可能是由于我的有缺陷的磁盘上的错误,如上所述。

所以最后,我从ACU cli做了一个“ctrl slot = 0 logicaldrive 1 modify raid = 5”,并重新启动了奇偶校验初始化,最终成功完成。

尽可能从arrays中复制数据,或尝试备份相关数据。 您可以closures电源(旋转驱动器),然后重新开启,看看是否可以慢跑重build过程。 一次更换一个磁盘。 注意“等待重build”状态。 如果您看到这一点,则意味着RAID 5重build将无法继续(通常是arrays中另一个驱动器上的读取错误)。

奇偶校验初始化在这里和这里详细介绍。

 Background RAID creation When you create a RAID 1, RAID 5, or RAID 6 logical drive, the Smart Array controller must build the logical drive within the array and initialize the parity before enabling certain advanced performance techniques. Parity initialization takes several hours to complete. The time it takes depends on the size of the logical drive and the load on the controller. The Smart Array controller creates the logical drive, initializing the parity whenever the controller is not busy. While the controller creates the logical drive, you can access the storage volume which has full fault tolerance. 

你使用这些磁盘的机箱是什么? MSA30?