长版本:我正在运行带有软件raid1(mdadm)的红帽企业Linux 5(REHL5)机器。
前几天我去备份一些MySQL数据,突然之间我不能再login到机器。 我input用户名login,然后它会坐在那里。 如果按下的控制顺序,他们会出现在屏幕上,但它永远不会login。它也没有响应Ctrl + Alt + Delete。 所以我做了一个强硬的权力。
我启动它,并通过以下方式监视raid1数组:
mdadm --detail /dev/md1
该数组拥有根挂载点。
它开始做一个arrays的重新同步。 我不知道是因为这次事故发生,还是因为我做了一个强硬的电源。 无论哪种方式,我让它完成:
[f@mysqldatanode ~]# mdadm --detail /dev/md1 /dev/md1: Version : 00.90.03 Creation Time : Thu Apr 19 15:28:52 2007 Raid Level : raid1 Array Size : 479893568 (457.66 GiB 491.41 GB) Device Size : 479893568 (457.66 GiB 491.41 GB) Raid Devices : 2 Total Devices : 2 Preferred Minor : 1 Persistence : Superblock is persistent Update Time : Fri Dec 25 10:03:50 2009 State : clean Active Devices : 2 Working Devices : 2 Failed Devices : 0 Spare Devices : 0 UUID : ab4849de:1f4f41c4:defd01e8:a4979ca6 Events : 0.78 Number Major Minor RaidDevice State 0 8 2 0 active sync /dev/sda2 1 8 18 1 active sync /dev/sdb2
我查看了一些日志(/ var / log / messages *),发现了如下所示的一些消息,指出了硬盘驱动器的问题:
Dec 21 11:39:47 localhost kernel: sd 0:0:1:0: SCSI error: return code = 0x08000002 Dec 21 11:39:47 localhost kernel: sdb: Current: sense key: Medium Error Dec 21 11:39:47 localhost kernel: Additional sense: Unrecovered read error Dec 21 11:39:47 localhost kernel: Info fld=0x3348912 Dec 21 11:39:47 localhost kernel: end_request: I/O error, dev sdb, sector 53774610 Dec 21 11:39:47 localhost kernel: raid1:md1: read error corrected (8 sectors at 53565760 on sdb2) Dec 21 11:39:48 localhost kernel: raid1: sdb2: redirecting sector 53565648 to another mirror
所以我试图寻找坏块,并以同样的方式再次locking。
[f@mysqldatanode ~]# badblocks -s /dev/md1 Checking for bad blocks (read-only test): 0/ 479893568
那么我应该如何评估这两个驱动器的健康状况呢? 由于有问题的数组拥有根挂载点,我是否需要将它们移动到另一台机器来分析它们?
你可以通过mdadm来破坏/ dev / sdb设备(最好确保你失败了整个设备,也就是所有运行它的mds),然后检查它是否有错误,但是根据你所描述的,你最好更换设备。
我有定期失败的ide设备,我不断重新添加被拒绝的设备,直到最后电脑开始像你所描述的挂起。 更换故障设备解决了这个问题。
无论哪种情况,您都应该尽快进行备份。
读取错误很常见,但是磁盘自己纠正了大部分错误。 某些磁盘在SMART信息中撒谎并报告正确的读取,一些磁盘报告正确的错误数量和恢复的ECC数量。 某些磁盘(特别是垂直磁盘)可能有数百万个读取错误,并且恢复了99.99999%(或更多)的ECC。
但是,这次/ dev / sdb2未能正确读取8个扇区。
然后通过从另一个磁盘提取丢失的扇区并重写它们,简单地恢复软拷贝。 然后它决定一切都很好。
这可能是一个糟糕的驱动器的迹象,但它也可能是一个在一个mtbf错误,一个杂散的尘埃粒子或任何东西。 等待,看看是否有更多的错误popup之前,你取消这个驱动器。