我应该关心一个很高的SMART Hardware_ECC_Recovered值吗？

我在/var/log/messages收到了这样的消息：

 Jun 25 06:29:27 server.ru smartd[4477]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 46 to 47

#smartctl -a /dev/sda ：

 smartctl version 5.38 [i686-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen Home page is http://smartmontools.sourceforge.net/ === START OF READ SMART DATA SECTION === SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 110 088 006 Pre-fail Always - 28526210 3 Spin_Up_Time 0x0003 093 093 000 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 24 5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0 7 Seek_Error_Rate 0x000f 087 060 030 Pre-fail Always - 471723621 9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 2520 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 41 187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0 189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0 190 Airflow_Temperature_Cel 0x0022 068 052 045 Old_age Always - 32 (Lifetime Min/Max 31/35) 194 Temperature_Celsius 0x0022 032 048 000 Old_age Always - 32 (0 27 0 0) 195 Hardware_ECC_Recovered 0x001a 047 045 000 Old_age Always - 105036390 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Offline - 0 202 TA_Increase_Count 0x0032 100 253 000 Old_age Always - 0

这是否意味着磁盘出现故障，我必须更换它？我在哪里可以阅读有关SMARTtesting结果的解释？

根据Spinrite成名的史蒂夫·吉布森的说法，SMART值必须随着时间的推移而被采用，而不是瞬间的读数。这意味着，如果价值47个月，价值47并不一定是坏的。但是，如果价值是一个小时前的42，而且迅速攀升，那么这意味着驱动器在访问部分数据时遇到了困难，并且可能很快就不能读取该扇区。根据该驱动器上的数据值，您可能希望更换它。

首先，SMART的值越低，值越高（请注意阈值栏的值总是低于当前值）。所以，增加价值是不用担心的。（但是，这个规则不适用于原始值。）

SMART值往往会有一点振荡（例如，您可能处于46到47之间的边缘，所以即使很小的改变也可能导致它翻转到另一个值）。

您的smartctl -a输出显示最差的值是45，所以略高于正常值。

有关更多信息，请参阅Wikipedia： ATA SMART属性。

请记住，即使是Google进行的大量研究，也发现大量的驱动器故障不是由SMART错误预测的。您可能看到的是完全正常的，但是由于每个制造商都有将原始值转换为报告值的不同指标，所以很难确定您的驱动器是否正在尝试很多错误。然而，一个大数字的原始数字让我感到奇怪。

我build议读取所有的驱动器（dd或rsync到一个新的驱动器），并检查SMART值，因为它沿着。如果你看到这个原始数字，或者报告的数值，那么我会开始更换驱动器。

IIRC硬件恢复的ECC是磁盘读取的纠错，这对于磁盘来说并不罕见，并且正是由于这个原因，它们使用纠错机制对数据进行编码。某些控制器还支持磁盘扇区中的冗余信息，并添加另一层纠错。

正如戴维·切尼（Dave Cheney）所说的，数据应该随着时间的推移而被监控这些统计信息的根本性变化是驱动器故障的一个指示。此外，请注意增长的缺陷列表 – 如果增长的缺陷列表开始增长或者SMART统计信息开始发生显着变化，则应该预防性地更换驱动器。

这个属性的高价值其实是相当不错的：

硬件ECC恢复SMART参数表示ECC纠正错误之间的时间。

https://kb.acronis.com/content/9131

没有错。

你可以随时运行

 smartctl -t long /dev/yourdrive

然后在几个小时后查询结果

 smartctl -a /dev/yourdrive

只是要确定。