几个星期以来,smartd一直在报告说,它周末正在跳过一些预定的自检:
4月24日18:29:32 calvin smartd [4758]:设备:/ dev / sda,跳过预定的离线即时testing; 目前的自检剩余40%。 4月24日18:29:33 calvin smartd [4758]:设备:/ dev / sdb,跳过预定的离线即时testing; 目前的自检剩余50%。
这个RAID-1arrays中的驱动器设置为每天运行四次离线testing,每天凌晨两点进行一次短暂自检,并在周六凌晨两点进行长时间自检。 由于某种原因,看起来长时间的自检时间更长,导致其他计划的testing被跳过。
第一个问题:这是否是一个可能的驱动器故障的迹象?
那么今天,smartd报告说自测失败了。 以下是smartctl -a /dev/sdb的输出:
smartctl版本5.38 [i686-pc-linux-gnu]版权所有(C)2002-8布鲁斯·艾伦 主页是http://smartmontools.sourceforge.net/ ===信息部分的开始=== 型号系列:Seagate Barracuda 7200.8系列 器件型号:ST3250823AS 序列号:3ND1GNBC 固件版本:3.03 用户容量:250,059,350,016字节 设备是:在smartctl数据库[详细使用:-P显示] ATA版本是:7 ATA标准是:精确的ATA规范草案版本没有标明 当地时间是:2010年4月25日13:15:34 EDT SMART支持是:可用 - 设备具有SMARTfunction。 SMART支持是:已启用 ===开始读取智能数据部分=== SMART全身健康自我评估testing结果:PASSED 一般SMART值: 离线数据收集状态:(0x82)离线数据收集活动 完成没有错误。 自动离线数据收集:已启用。 自检执行状态:(0)完成上一个自检程序 没有错误或没有自检过 已经运行。 完成离线的总时间 数据收集:(430)秒。 离线数据收集 function:(0x5b)SMART立即执行脱机。 自动离线数据收集开/关支持。 在新的时候挂起脱机收集 命令。 支持脱机表面扫描。 支持自检。 没有传输自检支持。 支持select性自检。 SMARTfunction:(0x0003)在input之前保存SMART数据 省电模式。 支持SMART自动保存定时器。 错误loggingfunction:(0x01)支持错误logging。 通用日志logging支持。 短暂的自检程序 推荐的投票时间:(1)分钟。 扩展的自检程序 build议投票时间:(84)分钟。 SMART属性数据结构修订号:10 具有阈值的供应商特定SMART属性: ID#ATTRIBUTE_NAME标记值最差值types已更新WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 047 039 006预失败总是 - 168450357 3 Spin_Up_Time 0x0003 098 098 000预失败始终 - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age始终 - 33 5 Reallocated_Sector_Ct 0x0033 100 100 036始终失败 - 9 7 Seek_Error_Rate 0x000f 087 060 030预故障总是 - 654745480 9 Power_On_Hours 0x0032 055 055 000 Old_age Always - 40141 10 Spin_Retry_Count 0x0013 100 100 097预失败始终 - 0 12 Power_Cycle_Count 0x0032 100 100 020 Old_age总是 - 51 194 Temperature_Celsius 0x0022 037 062 000 Old_age始终 - 37(0 17 0 0) 195 Hardware_ECC_Recovered 0x001a 047 039 000 Old_age始终 - 168450357 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age始终为0 200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Offline - 0 202 TA_Increase_Count 0x0032 100 253 000 Old_age始终为0 SMART错误日志版本:1 没有错误logging SMART自检日志结构修订版本号1 数量Test_Description状态剩余使用期限(小时)LBA_of_first_error #1短线下完成无误00%40131 - #2扩展离线完成:读取失败30%40129 379795511 #3短线下完成无误00%40084 - #4短线下完成没有错误00%40060 - #5短线下线完成无误00%40036 - #6短线下完成没有错误00%40013 - #7短线下完成无误00%39990 - #8扩展脱机完成,没有错误00%39977 - #9短线下完成无误00%39919 - #10短线下完成无误00%39895 - #11短线下完成没有错误00%39872 - #12短线下完成无误00%39848 - #13短线下完成无误00%39824 - #14短线下完成没有错误00%39801 - #15扩展离线完成无误00%39789 - #16短线下完成无误00%39754 - #17短线下完成没有错误00%39732 - #18短线下完成无误00%39707 - #19短线下完成无误00%39683 - #20短线下完成无误00%39660 - #21短线下完成没有错误00%39636 - SMARTselect性自检日志数据结构修订版本号1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing select性自检标志(0x0): 扫描选定的跨度后,不要读取扫描剩余的磁盘。 如果select性自检在上电时挂起,则延迟0分钟后恢复。
考虑到这个驱动器大约有4.5年的历史,我可能会保留它的使用。
SMART似乎没有得到太多的尊重,作为预测驱动器故障的可靠方法。 还有什么我可以用来早日显示驱动器故障?
某些SMART参数(如重新分配计数)往往是未来磁盘故障的良好指示,而其他参数则不太有用。 除非您拥有HD制作者使用的debugging工具,否则SMART仍然是获取有关磁盘的低级别可靠性信息的最佳方式。
如果你对硬盘故障感兴趣的话,我build议你看一下Google的一个团队所做的调查 ,他们也在讨论SMART监控的性能和HD可靠性的其他重要因素。