今天早上,我来到办公室,发现RAID-6,3ware 9650SE控制器上的两个驱动器被标记为降级,并且正在重buildarrays。 达到大约4%后,在第三个驱动器上出现了ECC错误(当我尝试访问此RAID上的文件系统并从控制器获得I / O错误时,可能发生这种情况。 现在我处于这种状态:
> /c2/u1 show Unit UnitType Status %RCmpl %V/I/M Port Stripe Size(GB) ------------------------------------------------------------------------ u1 RAID-6 REBUILDING 4%(A) - - 64K 7450.5 u1-0 DISK OK - - p5 - 931.312 u1-1 DISK OK - - p2 - 931.312 u1-2 DISK OK - - p1 - 931.312 u1-3 DISK OK - - p4 - 931.312 u1-4 DISK OK - - p11 - 931.312 u1-5 DISK DEGRADED - - p6 - 931.312 u1-6 DISK OK - - p7 - 931.312 u1-7 DISK DEGRADED - - p3 - 931.312 u1-8 DISK WARNING - - p9 - 931.312 u1-9 DISK OK - - p10 - 931.312 u1/v0 Volume - - - - - 7450.5
检查有问题的三个驱动器上的SMART数据,两个DEGRADED状态良好(PASSED没有任何Current_Pending_Sector或Offline_Uncorrectable错误),但列出为WARNING的驱动器有24个不可纠正的扇区。
而且,“重build”现在已经停滞了4个小时,达到了10个小时。
所以:
我如何才能真正开始重build? 这个特定的控制器似乎不支持/c2/u1 resume rebuild ,而唯一的重build命令似乎是一个想知道要添加什么磁盘的重build命令( /c2/u1 start rebuild disk=<p:-p...> [ignoreECC]按照帮助)。 我在服务器上有两个热备份,我很高兴与他们互动,但是我不明白它会在当前状态下处理这些信息。
如果RAID-6中有两个DEGRADED驱动器,可以拔出显示故障的驱动器(WARNING驱动器)吗? 在我看来,最好的情况是我将WARNING驱动器拉下来,并告诉它在重build中使用我的热备件之一。 但是,我不会通过在两个DEGRADED驱动器的RAID-6中拉动“好”驱动器来杀死这个东西吗?
最后,我在其他post中看到了这个控制器中的一个坏bug,它导致好的驱动器被标记为坏,升级固件可能会有所帮助。 考虑到这种情况,闪存固件是否是一个冒险的操作? 是否可能帮助或伤害重build,但坚持在4%的RAID? 我是否遇到这个错误?
在精神之外的build议将不胜感激。 谢谢。
我设法通过在tw_cli发出以下命令来重buildRAID,而无需拖动任何驱动器或重新启动系统:
/c2/u1 set ignoreECC=on
重build没有立即进行,但是在我做这个改变之后的凌晨2点,重build开始了,大约6个小时之后,它完成了。 带有ECC错误的驱动器有24个坏扇区,现在已被驱动器覆盖并重新分配(根据SMART数据)。 文件系统似乎是完好无损的,但是当我得到这些部门的任何数据时,如果我遇到错误,我不会感到惊讶。
在任何情况下,我都比以前好多了,可能会恢复大部分数据。 一旦我得到了我所能做的,我就会popup失败的驱动器,并重build到热备份上。