如何检测硬盘故障

我在CentOS 6.2中安装了一个软件RAID 1,并且设置为可以在任何硬盘上启动,以防其中一个硬盘出现故障。

问题:

  1. 如何识别其中一个硬盘是否出现故障? 或CentOS出现早期失败迹象? (预防性的维护)
  2. 如果其中一个磁盘出现故障,那么要做什么? 像任何数据恢复方法一样。 (纠正性维护)或(如何复制剩余硬盘中的数据并将其复制到新硬盘)

如果你能给我任何参考,我会很高兴感激。

更新:

我试图只在其中一个磁盘启动。 我先删除了sdb,系统在sda中成功启动。 然后我删除了sda,并在sdb中启动,但仍然成功启动。 但是当我把它们放在一起并执行cat / proc / mdstat&mdadm -D / dev / md0时,它显示其中一个磁盘仍然被删除。

  1. 如果幸运的话(并且启用了守护进程),在磁盘出现故障之前,您将在日志中获得SMART警告。 但是,这并不能保证。 根据我的经验,在磁盘爆炸前不到50%的情况下,我看到SMART错误。 确保你有东西在监视日志。
  2. 磁盘发生故障后,请更换磁盘并重build。 RAID系统应该从此恢复。 只是希望在重build时没有其他磁盘错误。

我强烈build议有一个好的备份策略,而不是规划数据恢复。 Raid是提高服务器正常运行时间的完美select,但所需要的只是一个小小的软件错误,所有的数据都消失了。

1软件突袭在Centos? 所以,这一定是一个mdraid。 你可以看到这样的RAID状态:cat / proc / mdstat或者:mdadm –detail / dev / md [0-9],其中md正在使用你可以通过fstab,mount,pvs或其他地方find。 玩家还可以在/etc/mdadm.conf中设置MAILADDR来发送电子邮件通知。

2只是通过mdadm –manage / dev / md [0-9] –remove / dev / sd [az]删除故障磁盘,将其replace并添加新的磁盘到RAIDarrays(mdadm –re-add,add)

此外,您可能需要恢复故障磁盘的MBR以使其可启动。