如何检查RAIDarrays中单个硬盘的健康状况?

我正在Ubuntu Server 10.10上运行一个简单的1TB RAID 1arrays和mdadm。 我想简单地检查一下每个硬盘的状态,以确保它们的function都已经为时已晚。 我怎么能轻松做到这一点?

通常情况下,你想要的是一个名为smartmontools的软件包。 它可以查询您的磁盘上的SMART接口,这是最现代的磁盘。

有一个叫做smartd的守护进程,可以帮助你持续监控。

但是,如果您的系统是家庭服务器,只需手动检查通常会更好。 像这样:

smartctl -a / dev / sda

大量的数据出来了。 最感兴趣的东西是以下几点:

ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 100 100 051 Pre-fail Always - 0 7 Seek_Error_Rate 0x000f 100 100 051 Pre-fail Always - 0 9 Power_On_Hours 0x0032 097 097 000 Old_age Always - 13946 13 Read_Soft_Error_Rate 0x000e 100 100 000 Old_age Always - 0 190 Airflow_Temperature_Cel 0x0022 075 066 000 Old_age Always - 25 194 Temperature_Celsius 0x0022 075 064 000 Old_age Always - 25 196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0 199 UDMA_CRC_Error_Count 0x003e 100 100 000 Old_age Always - 0 200 Multi_Zone_Error_Rate 0x000a 100 100 000 Old_age Always - 0 201 Soft_Read_Error_Rate 0x000a 100 100 000 Old_age Always - 0 

这给你一个主观衡量驾驶健康的方法。 当错误率开始上升,它的时间寻找替代品。 此外,你可以检查他们没有运行热。

像“mdadm –query –detail / dev / md0”应该可以工作,但当驱动器实际上失败时,根将收到一封电子邮件(这是Centos的标准configuration,我相信其他发行版也是如此)。 只要通过失败检查通知(如:mdadm –manage / dev / md0 –fail / dev / sda1),您将100%确定。

您将要安装smartd并查看您的configuration选项。

对我来说,我有专门监视我的RAID磁盘:

 /dev/sda -a /dev/sdb -a /dev/sdc -a 

这给我驱动器监视我所需要的。

您也可以设置smartd在指定的时间进行全盘testing。