我应该关心一个很高的SMART Hardware_ECC_Recovered值吗?

我在/var/log/messages收到了这样的消息:

 Jun 25 06:29:27 server.ru smartd[4477]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 46 to 47 

#smartctl -a /dev/sda

 smartctl version 5.38 [i686-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen Home page is http://smartmontools.sourceforge.net/ === START OF READ SMART DATA SECTION === SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 110 088 006 Pre-fail Always - 28526210 3 Spin_Up_Time 0x0003 093 093 000 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 24 5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0 7 Seek_Error_Rate 0x000f 087 060 030 Pre-fail Always - 471723621 9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 2520 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 41 187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0 189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0 190 Airflow_Temperature_Cel 0x0022 068 052 045 Old_age Always - 32 (Lifetime Min/Max 31/35) 194 Temperature_Celsius 0x0022 032 048 000 Old_age Always - 32 (0 27 0 0) 195 Hardware_ECC_Recovered 0x001a 047 045 000 Old_age Always - 105036390 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Offline - 0 202 TA_Increase_Count 0x0032 100 253 000 Old_age Always - 0 

这是否意味着磁盘出现故障,我必须更换它? 我在哪里可以阅读有关SMARTtesting结果的解释?

根据Spinrite成名的史蒂夫·吉布森的说法,SMART值必须随着时间的推移而被采用,而不是瞬间的读数。 这意味着,如果价值47个月,价值47并不一定是坏的。 但是,如果价值是一个小时前的42,而且迅速攀升,那么这意味着驱动器在访问部分数据时遇到了困难,并且可能很快就不能读取该扇区。 根据该驱动器上的数据值,您可能希望更换它。

首先,SMART的值越低,值越高(请注意阈值栏的值总是低于当前值)。 所以,增加价值是不用担心的。 (但是,这个规则不适用于原始值。)

SMART值往往会有一点振荡(例如,您可能处于46到47之间的边缘,所以即使很小的改变也可能导致它翻转到另一个值)。

您的smartctl -a输出显示最差的值是45,所以略高于正常值。

有关更多信息,请参阅Wikipedia: ATA SMART属性 。

请记住,即使是Google进行的大量研究,也发现大量的驱动器故障不是由SMART错误预测的。 您可能看到的是完全正常的,但是由于每个制造商都有将原始值转换为报告值的不同指标,所以很难确定您的驱动器是否正在尝试很多错误。 然而,一个大数字的原始数字让我感到奇怪。

我build议读取所有的驱动器(dd或rsync到一个新的驱动器),并检查SMART值,因为它沿着。 如果你看到这个原始数字,或者报告的数值,那么我会开始更换驱动器。

IIRC硬件恢复的ECC是磁盘读取的纠错,这对于磁盘来说并不罕见,并且正是由于这个原因,它们使用纠错机制对数据进行编码。 某些控制器还支持磁盘扇区中的冗余信息,并添加另一层纠错。

正如戴维·切尼(Dave Cheney)所说的,数据应该随着时间的推移而被监控 这些统计信息的根本性变化是驱动器故障的一个指示。 此外,请注意增长的缺陷列表 – 如果增长的缺陷列表开始增长或者SMART统计信息开始发生显着变化,则应该预防性地更换驱动器。

这个属性的高价值其实是相当不错的:

硬件ECC恢复SMART参数表示ECC纠正错误之间的时间。

https://kb.acronis.com/content/9131

没有错。

你可以随时运行

 smartctl -t long /dev/yourdrive 

然后在几个小时后查询结果

 smartctl -a /dev/yourdrive 

只是要确定。