我有一个RAID bus controller: 3ware Inc 9550SX SATA-II RAID PCI-X带有四个磁盘,当前状态如下:
tw_cli> /c1 show Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy ------------------------------------------------------------------------------ u0 RAID-5 REBUILD-PAUSED 0% - 256K 931.303 OFF OFF u1 SPARE OK - - - 465.753 - OFF Port Status Unit Size Blocks Serial --------------------------------------------------------------- p0 OK u0 465.76 GB 976773168 WD-WCAS87320631 p1 OK u0 465.76 GB 976773168 WD-WCAS87223554 p2 DEGRADED u0 465.76 GB 976773168 WD-WCAS87159042 p3 OK u1 465.76 GB 976773168 WD-WMAYP6812676 p4 NOT-PRESENT - - - - p5 NOT-PRESENT - - - - p6 NOT-PRESENT - - - - p7 NOT-PRESENT - - - -
重build已启用。 它开始的一些事情(状态: REBUILDING ),似乎在一分钟左右的事情,然后又回到了REBUILD-PAUSED 。 %RCmpl永远不会超过0%。 日志( /var/log/messages )大约每五分钟说一次:
Dec 5 23:41:57 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x000B): Rebuild started:unit=0. Dec 5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x003A): Drive power on reset detected:port=1. Dec 5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1. Dec 5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x001A): Drive inserted:port=1.
我是这个硬件的新手,我inheritance了机器和维护任务。 它能指出什么? 我有多大的麻烦? 我该怎么办?
新的事件
Dec 6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current<4>3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1. Dec 6 00:25:42 somelinux kernel: : sense key=0x2 Dec 6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0 Dec 6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143 Dec 6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2 Dec 6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0 Dec 6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143 Dec 6 00:25:43 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x001E): Unit inoperable:unit=0. Dec 6 00:28:02 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2 Dec 6 00:28:02 somelinux kernel: ASC=0x4 ASCQ=0x0 Dec 6 00:28:02 somelinux kernel: end_request: I/O error, dev sdc, sector 104927621 Dec 6 00:28:02 somelinux kernel: xfs_force_shutdown(dm-0,0x2) called from line 956 of file fs/xfs/xfs_log.c. Return address = 0xc028860d
…和…
tw_cli> /c1 show Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy ------------------------------------------------------------------------------ u0 RAID-5 INOPERABLE - - 256K 931.303 OFF OFF u1 SPARE OK - - - 465.753 - OFF Port Status Unit Size Blocks Serial --------------------------------------------------------------- p0 OK u0 465.76 GB 976773168 WD-WCAS87320631 p1 NOT-PRESENT - - - - p2 OK u0 465.76 GB 976773168 WD-WCAS87159042 p3 OK u1 465.76 GB 976773168 WD-WMAYP6812676 p4 NOT-PRESENT - - - - p5 NOT-PRESENT - - - - p6 NOT-PRESENT - - - - p7 NOT-PRESENT - - - -
看来p1的形状真的很糟糕。
卷起来
在变得不可操作之前,它总是工作几分钟/几小时。 这样我设法做了数据的备份。 我很幸运。 我了解到,我需要密切关注,否则没有冗余存储的意义。
删除旧的数组。 删除了有问题的磁盘。 用3个好成员定义一个新数组。 重新创build的文件系统。 恢复备份。 好结局。
振作起来。
你的RAID 5已经死了
u0 RAID-5 INOPERABLE - - 256K 931.303 OFF OFF
这也是SCSI / I / O错误的原因。 您的RAID 5不是4个磁盘; 它只有3个。第四个磁盘p3在它自己的单元u1中,而不是主单元u0。
从您提供的文本来看,可能发生的情况如下:
现在p2显示“OK”的事实与RAID 5的状态无关。
我希望这个服务器有备份,因为你不可能恢复这个。 我不相信tw_cli支持在线强制数组, 虽然以下内容不能帮助您从此失败的arrays中检索数据,但下面是我推荐的内容:
无论是谁设置RAID 5备份(也没有正确设置),都不是最亮的。