昨天晚上得到通知,一台服务器上的驱动器失败。 在今天上午取代它,我们得到以下。 控制器configuration报告arrays看起来很好,与不寻常的状态准备重build 。
~ # hpacucli controller all show config Smart Array P400i in Slot 0 (Embedded) (sn: XXXXXXXX ) array A (SAS, Unused Space: 0 MB) logicaldrive 1 (341.7 GB, RAID 5, Ready for Rebuild) physicaldrive 1I:1:1 (port 1I:box 1:bay 1, SAS, 72 GB, OK) physicaldrive 1I:1:2 (port 1I:box 1:bay 2, SAS, 72 GB, OK) physicaldrive 1I:1:3 (port 1I:box 1:bay 3, SAS, 72 GB, OK) physicaldrive 1I:1:4 (port 1I:box 1:bay 4, SAS, 146 GB, OK) physicaldrive 2I:1:5 (port 2I:box 1:bay 5, SAS, 72 GB, OK) physicaldrive 2I:1:6 (port 2I:box 1:bay 6, SAS, 72 GB, OK)
逻辑驱动器显示一个提示, 奇偶校验初始化状态:初始化失败 :
~ # hpacucli controller slot=0 logicaldrive 1 show Smart Array P400i in Slot 0 (Embedded) array A Logical Drive: 1 Size: 341.7 GB Fault Tolerance: RAID 5 Heads: 255 Sectors Per Track: 32 Cylinders: 65535 Strip Size: 64 KB Full Stripe Size: 320 KB Status: Ready for Rebuild Array Accelerator: Enabled Parity Initialization Status: Initialization Failed Unique Identifier: XXXXXXX Disk Name: /dev/cciss/c0d0 Mount Points: /boot 191 MB, / 28.6 GB OS Status: LOCKED Logical Drive Label: XXXXX 6797
数组configuration,如果有帮助:
~ # /usr/sbin/hpacucli ctrl slot=0 show Smart Array P400i in Slot 0 (Embedded) Bus Interface: PCI Slot: 0 Serial Number: XXXXXXXX Cache Serial Number: XXXXXXXX RAID 6 (ADG) Status: Enabled Controller Status: OK Hardware Revision: B Firmware Version: 1.18 Rebuild Priority: Low Expand Priority: Low Surface Scan Delay: 15 secs Surface Scan Mode: Idle Post Prompt Timeout: 0 secs Cache Board Present: True Cache Status: OK Accelerator Ratio: 50% Read / 50% Write Drive Write Cache: Disabled Total Cache Size: 256 MB Total Cache Memory Available: 208 MB No-Battery Write Cache: Disabled Cache Backup Power Source: Batteries Battery/Capacitor Count: 1 Battery/Capacitor Status: OK SATA NCQ Supported: False
我怎么去debugging呢?
编辑:
所有的个人驱动器显示正常:
~ # hpacucli controller all show config detail | grep Status RAID 6 (ADG) Status: Enabled Controller Status: OK Cache Status: OK Battery/Capacitor Status: OK Status: OK Status: Ready for Rebuild Parity Initialization Status: Initialization Failed OS Status: LOCKED Status: OK Status: OK Status: OK Status: OK Status: OK Status: OK
EDIT2:
我正在debugginghpaducli和grsec(也是mp-SSH和Ubuntu)之间的一些不利的相互作用,但是我们确实有可用的诊断结果,并且embedded在逻辑驱动器状态标志中的是Rebuild Aborted From Read Error 。 这里让我感到困惑的是,在重build过程中读取错误不会导致其中一个驱动器出现预测性故障,或者更糟糕,但会导致重build停止。
如果您正在使用奇偶校验RAID级别(如5或6),则Ready for Rebuild是一种错误的状态。这意味着您可能在arrays中的另一个驱动器上发生了读取错误,例如另一个发生故障的驱动器。
如果系统仍然在线,最好的select是恢复数据或重build。 没有很好的解决办法,绝对不能做很多debugging。
请参阅以下内容:
强制HP Smart Array中的LUN重build
惠普Proliant ML350 G5 SAS硬盘
HP SmartArray P400:如何修复发生故障的逻辑驱动器?
当然: RAID-5:两个磁盘同时失败?
你有升级你的固件? 似乎V1.8对于P400i控制器来说是相当古老的。 所有的驱动器都可以,并且也不能奇偶校验,这对我来说是一个bug。
我有很多情况下,惠普提供了旧的固件和升级固定奇偶校验初始化问题(但我需要从头重新构buildarrays),并显着改善性能(不完全相同的单位,虽然,我使用P440AR)。