跳过预定的自检和预测驱动器EOL

几个星期以来,smartd一直在报告说,它周末正在跳过一些预定的自检:

  4月24日18:29:32 calvin smartd [4758]:设备:/ dev / sda,跳过预定的离线即时testing; 目前的自检剩余40%。
 4月24日18:29:33 calvin smartd [4758]:设备:/ dev / sdb,跳过预定的离线即时testing; 目前的自检剩余50%。 

这个RAID-1arrays中的驱动器设置为每天运行四次离线testing,每天凌晨两点进行一次短暂自检,并在周六凌晨两点进行长时间自检。 由于某种原因,看起来长时间的自检时间更长,导致其他计划的testing被跳过。

第一个问题:这是否是一个可能的驱动器故障的迹象?

那么今天,smartd报告说自测失败了。 以下是smartctl -a /dev/sdb的输出:

  smartctl版本5.38 [i686-pc-linux-gnu]版权所有(C)2002-8布鲁斯·艾伦
主页是http://smartmontools.sourceforge.net/

 ===信息部分的开始===
型号系列:Seagate Barracuda 7200.8系列
器件型号:ST3250823AS
序列号:3ND1GNBC
固件版本:3.03
用户容量:250,059,350,016字节
设备是:在smartctl数据库[详细使用:-P显示]
 ATA版本是:7
 ATA标准是:精确的ATA规范草案版本没有标明
当地时间是:2010年4月25日13:15:34 EDT
 SMART支持是:可用 - 设备具有SMARTfunction。
 SMART支持是:已启用

 ===开始读取智能数据部分===
 SMART全身健康自我评估testing结果:PASSED

一般SMART值:
离线数据收集状态:(0x82)离线数据收集活动
     完成没有错误。
     自动离线数据收集:已启用。
自检执行状态:(0)完成上一个自检程序
     没有错误或没有自检过 
     已经运行。
完成离线的总时间 
数据收集:(430)秒。
离线数据收集
function:(0x5b)SMART立即执行脱机。
     自动离线数据收集开/关支持。
     在新的时候挂起脱机收集
     命令。
     支持脱机表面扫描。
     支持自检。
     没有传输自检支持。
     支持select性自检。
 SMARTfunction:(0x0003)在input之前保存SMART数据
     省电模式。
     支持SMART自动保存定时器。
错误loggingfunction:(0x01)支持错误logging。
     通用日志logging支持。
短暂的自检程序 
推荐的投票时间:(1)分钟。
扩展的自检程序
build议投票时间:(84)分钟。

 SMART属性数据结构修订号:10
具有阈值的供应商特定SMART属性:
 ID#ATTRIBUTE_NAME标记值最差值types已更新WHEN_FAILED RAW_VALUE
   1 Raw_Read_Error_Rate 0x000f 047 039 006预失败总是 -  168450357
   3 Spin_Up_Time 0x0003 098 098 000预失败始终 -  0
   4 Start_Stop_Count 0x0032 100 100 020 Old_age始终 -  33
   5 Reallocated_Sector_Ct 0x0033 100 100 036始终失败 -  9
   7 Seek_Error_Rate 0x000f 087 060 030预故障总是 -  654745480
   9 Power_On_Hours 0x0032 055 055 000 Old_age Always  -  40141
  10 Spin_Retry_Count 0x0013 100 100 097预失败始终 -  0
  12 Power_Cycle_Count 0x0032 100 100 020 Old_age总是 -  51
 194 Temperature_Celsius 0x0022 037 062 000 Old_age始终 -  37(0 17 0 0)
 195 Hardware_ECC_Recovered 0x001a 047 039 000 Old_age始终 -  168450357
 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always  -  0
 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline  -  0
 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age始终为0
 200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Offline  -  0
 202 TA_Increase_Count 0x0032 100 253 000 Old_age始终为0

 SMART错误日志版本:1
没有错误logging

 SMART自检日志结构修订版本号1
数量Test_Description状态剩余使用期限(小时)LBA_of_first_error
 #1短线下完成无误00%40131  - 
 #2扩展离线完成:读取失败30%40129 379795511
 #3短线下完成无误00%40084  - 
 #4短线下完成没有错误00%40060  - 
 #5短线下线完成无误00%40036  - 
 #6短线下完成没有错误00%40013  - 
 #7短线下完成无误00%39990  - 
 #8扩展脱机完成,没有错误00%39977  - 
 #9短线下完成无误00%39919  - 
 #10短线下完成无误00%39895  - 
 #11短线下完成没有错误00%39872  - 
 #12短线下完成无误00%39848  - 
 #13短线下完成无误00%39824  - 
 #14短线下完成没有错误00%39801  - 
 #15扩展离线完成无误00%39789  - 
 #16短线下完成无误00%39754  - 
 #17短线下完成没有错误00%39732  - 
 #18短线下完成无误00%39707  - 
 #19短线下完成无误00%39683  - 
 #20短线下完成无误00%39660  - 
 #21短线下完成没有错误00%39636  - 

 SMARTselect性自检日志数据结构修订版本号1
  SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
     1 0 0 Not_testing
     2 0 0 Not_testing
     3 0 0 Not_testing
     4 0 0 Not_testing
     5 0 0 Not_testing
select性自检标志(0x0):
  扫描选定的跨度后,不要读取扫描剩余的磁盘。
如果select性自检在上电时挂起,则延迟0分钟后恢复。 

考虑到这个驱动器大约有4.5年的历史,我可能会保留它的使用。

SMART似乎没有得到太多的尊重,作为预测驱动器故障的可靠方法。 还有什么我可以用来早日显示驱动器故障?

某些SMART参数(如重新分配计数)往往是未来磁盘故障的良好指示,而其他参数则不太有用。 除非您拥有HD制作者使用的debugging工具,否则SMART仍然是获取有关磁盘的低级别可靠性信息的最佳方式。

如果你对硬盘故障感兴趣的话,我build议你看一下Google的一个团队所做的调查 ,他们也在讨论SMART监控的性能和HD可靠性的其他重要因素。