TL; DR版本
而现在这个漫长而详细的版本:
我在Ubuntu 1110服务器上运行的3ware 9690卡上有一个RAID10(8x1TB)arrays。
有一个内核更新,所以我安排重新启动之后,数组是无法访问。 我检查了一个驱动器已经在arrays中死亡的状态,但是控制器已经把整个arrays置于“不可操作”的状态,而不是简单的降级(RAID现在有什么用处);-)。
在取出“死亡”驱动器后,我运行了一个快速testing,发现它没有坏扇区的function。
我试图重新把驱动器,但数组仍然标记为降级磁盘(记住序列号或东西??),整个arrays不能操作…
所以我把它换成一个已知的工作驱动器(不是相同的容量,但更高的 – 应该仍然工作),并开始一个新的驱动器作为一个替代重build。 如果错误“(0x0B:0x0033):单元繁忙:单元0重新启动失败”,则立即失败。 该单元不应该是繁忙的,因为它没有安装(卡本身与lshw列出,但它提供的数组不是)。
我现在几乎陷入僵局,我不明白如何在RAID10上出现单个驱动器故障,使整个arrays无法访问,降级,我可以理解,但无法访问? 我不认为控制器是有问题的,因为在重新启动之前,它是完全正常的。
> info c0
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy ------------------------------------------------------------------------------ u0 RAID-10 INOPERABLE - - 256K 3725.25 Ri ON VPort Status Unit Size Type Phy Encl-Slot Model ------------------------------------------------------------------------------ p0 OK u0 931.51 GB SATA 0 - SAMSUNG HD103SJ p1 OK u0 931.51 GB SATA 1 - SAMSUNG HD103SJ p2 OK u0 931.51 GB SATA 2 - SAMSUNG HD103SJ p3 OK u0 931.51 GB SATA 3 - SAMSUNG HD103SJ p4 OK u0 931.51 GB SATA 4 - SAMSUNG HD103SJ p5 OK - 1.36 TB SATA 5 - ST31500341AS p6 OK u0 931.51 GB SATA 6 - SAMSUNG HD103SJ p7 OK u0 931.51 GB SATA 7 - SAMSUNG HD103SJ
> /c0/u0 start rebuild disk=5
Sending rebuild start request to /c0/u0 on 1 disk(s) [5] ... Failed. (0x0B:0x0033): Unit busy
联系LSI支持和他们的二级技术人员之一,疯狂写一个脚本和固件破解,使arrays进入正常退化状态。
从那里,像往常一样,业务join一个新的磁盘arrays和重build。