在3ware 9690SA-8I上重buildarrays

TL; DR版本

  1. RAID10arrays工作正常
  2. 重新启动服务器作为维护的一部分
  3. arrays无法操作(无法访问)
  4. 控制器日志说一个驱动器是坏的
  5. 移除驱动器和testing – 没有发现坏道
  6. 谨慎小心,更换已知好的驱动器
  7. 控制器不会将arrays重build到新驱动器上
  8. 即使只有一个驱动器故障,控制器也使整个RAID10arrays无法访问

而现在这个漫长而详细的版本:

我在Ubuntu 1110服务器上运行的3ware 9690卡上有一个RAID10(8x1T​​B)arrays。

有一个内核更新,所以我安排重新启动之后,数组是无法访问。 我检查了一个驱动器已经在arrays中死亡的状态,但是控制器已经把整个arrays置于“不可操作”的状态,而不是简单的降级(RAID现在有什么用处);-)。

在取出“死亡”驱动器后,我运行了一个快速testing,发现它没有坏扇区的function。

我试图重新把驱动器,但数组仍然标记为降级磁盘(记住序列号或东西??),整个arrays不能操作…

所以我把它换成一个已知的工作驱动器(不是相同的容量,但更高的 – 应该仍然工作),并开始一个新的驱动器作为一个替代重build。 如果错误“(0x0B:0x0033):单元繁忙:单元0重新启动失败”,则立即失败。 该单元不应该是繁忙的,因为它没有安装(卡本身与lshw列出,但它提供的数组不是)。

我现在几乎陷入僵局,我不明白如何在RAID10上出现单个驱动器故障,使整个arrays无法访问,降级,我可以理解,但无法访问? 我不认为控制器是有问题的,因为在重新启动之前,它是完全正常的。


> info c0

 Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy ------------------------------------------------------------------------------ u0 RAID-10 INOPERABLE - - 256K 3725.25 Ri ON VPort Status Unit Size Type Phy Encl-Slot Model ------------------------------------------------------------------------------ p0 OK u0 931.51 GB SATA 0 - SAMSUNG HD103SJ p1 OK u0 931.51 GB SATA 1 - SAMSUNG HD103SJ p2 OK u0 931.51 GB SATA 2 - SAMSUNG HD103SJ p3 OK u0 931.51 GB SATA 3 - SAMSUNG HD103SJ p4 OK u0 931.51 GB SATA 4 - SAMSUNG HD103SJ p5 OK - 1.36 TB SATA 5 - ST31500341AS p6 OK u0 931.51 GB SATA 6 - SAMSUNG HD103SJ p7 OK u0 931.51 GB SATA 7 - SAMSUNG HD103SJ 

> /c0/u0 start rebuild disk=5

 Sending rebuild start request to /c0/u0 on 1 disk(s) [5] ... Failed. (0x0B:0x0033): Unit busy 

联系LSI支持和他们的二级技术人员之一,疯狂写一个脚本和固件破解,使arrays进入正常退化状态。
从那里,像往常一样,业务join一个新的磁盘arrays和重build。