3ware：尝试重build时启动电源重置

我有一个RAID bus controller: 3ware Inc 9550SX SATA-II RAID PCI-X带有四个磁盘，当前状态如下：

 tw_cli> /c1 show Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy ------------------------------------------------------------------------------ u0 RAID-5 REBUILD-PAUSED 0% - 256K 931.303 OFF OFF u1 SPARE OK - - - 465.753 - OFF Port Status Unit Size Blocks Serial --------------------------------------------------------------- p0 OK u0 465.76 GB 976773168 WD-WCAS87320631 p1 OK u0 465.76 GB 976773168 WD-WCAS87223554 p2 DEGRADED u0 465.76 GB 976773168 WD-WCAS87159042 p3 OK u1 465.76 GB 976773168 WD-WMAYP6812676 p4 NOT-PRESENT - - - - p5 NOT-PRESENT - - - - p6 NOT-PRESENT - - - - p7 NOT-PRESENT - - - -

重build已启用。它开始的一些事情（状态： REBUILDING ），似乎在一分钟左右的事情，然后又回到了REBUILD-PAUSED 。 %RCmpl永远不会超过0％。日志（ /var/log/messages ）大约每五分钟说一次：

 Dec 5 23:41:57 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x000B): Rebuild started:unit=0. Dec 5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x003A): Drive power on reset detected:port=1. Dec 5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1. Dec 5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x001A): Drive inserted:port=1.

我是这个硬件的新手，我inheritance了机器和维护任务。它能指出什么？我有多大的麻烦？我该怎么办？

新的事件

 Dec 6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current<4>3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1. Dec 6 00:25:42 somelinux kernel: : sense key=0x2 Dec 6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0 Dec 6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143 Dec 6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2 Dec 6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0 Dec 6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143 Dec 6 00:25:43 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x001E): Unit inoperable:unit=0. Dec 6 00:28:02 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2 Dec 6 00:28:02 somelinux kernel: ASC=0x4 ASCQ=0x0 Dec 6 00:28:02 somelinux kernel: end_request: I/O error, dev sdc, sector 104927621 Dec 6 00:28:02 somelinux kernel: xfs_force_shutdown(dm-0,0x2) called from line 956 of file fs/xfs/xfs_log.c. Return address = 0xc028860d

…和…

 tw_cli> /c1 show Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy ------------------------------------------------------------------------------ u0 RAID-5 INOPERABLE - - 256K 931.303 OFF OFF u1 SPARE OK - - - 465.753 - OFF Port Status Unit Size Blocks Serial --------------------------------------------------------------- p0 OK u0 465.76 GB 976773168 WD-WCAS87320631 p1 NOT-PRESENT - - - - p2 OK u0 465.76 GB 976773168 WD-WCAS87159042 p3 OK u1 465.76 GB 976773168 WD-WMAYP6812676 p4 NOT-PRESENT - - - - p5 NOT-PRESENT - - - - p6 NOT-PRESENT - - - - p7 NOT-PRESENT - - - -

看来p1的形状真的很糟糕。

卷起来

在变得不可操作之前，它总是工作几分钟/几小时。这样我设法做了数据的备份。我很幸运。我了解到，我需要密切关注，否则没有冗余存储的意义。

删除旧的数组。删除了有问题的磁盘。用3个好成员定义一个新数组。重新创build的文件系统。恢复备份。好结局。

振作起来。

你的RAID 5已经死了

 u0 RAID-5 INOPERABLE - - 256K 931.303 OFF OFF

这也是SCSI / I / O错误的原因。您的RAID 5不是4个磁盘; 它只有3个。第四个磁盘p3在它自己的单元u1中，而不是主单元u0。

从您提供的文本来看，可能发生的情况如下：

p2被降级，你试图重build
在此期间，p1停止检测
由于2个驱动器不工作/检测到RAID 5故障

现在p2显示“OK”的事实与RAID 5的状态无关。

我希望这个服务器有备份，因为你不可能恢复这个。我不相信tw_cli支持在线强制数组，虽然以下内容不能帮助您从此失败的arrays中检索数据，但下面是我推荐的内容：

更换发生故障的驱动器（p1）
由于该卡不支持RAID 6，因此我们不能使用（推荐用于大型硬盘），所以我们必须使用RAID 10.使用RAID 10重新创build，创build分区，格式化/挂载和更新/ etc / fstab文件。
从备份恢复，我希望你有