了解smartctl -a输出

我有一个NAS盒子里有6个驱动器。其中两个是希捷，他们返回高RAW_VALUES的错误; 见下文。

我的其他驱动器显示值低得多。

这是报警的原因吗？或只是希捷报道的方式？

看看Raw_Read_Error_Rate和Seek_Error_Rate ：

 # smartctl -a /dev/ada1 === START OF INFORMATION SECTION === Device Model: ST3000DM001-9YN166 Serial Number: W1F09S26 LU WWN Device Id: 5 000c50 0456076fc Firmware Version: CC4C User Capacity: 3,000,592,982,016 bytes [3.00 TB] Sector Sizes: 512 bytes logical, 4096 bytes physical Device is: Not in smartctl database [for details use: -P showall] ATA Version is: 8 ATA Standard is: ATA-8-ACS revision 4 Local Time is: Sat Aug 18 17:34:24 2012 EDT SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x82) Offline data collection activity was completed without error. Auto Offline Data Collection: Enabled. Self-test execution status: ( 249) Self-test routine in progress... 90% of test remaining. Total time to complete Offline data collection: ( 575) seconds. Offline data collection capabilities: (0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 1) minutes. Extended self-test routine recommended polling time: ( 255) minutes. Conveyance self-test routine recommended polling time: ( 2) minutes. SCT capabilities: (0x3085) SCT Status supported. SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 111 099 006 Pre-fail Always - 34053632 3 Spin_Up_Time 0x0003 093 092 000 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 32 5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0 7 Seek_Error_Rate 0x000f 060 055 030 Pre-fail Always - 21480133713 9 Power_On_Hours 0x0032 097 097 000 Old_age Always - 2696 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 32 183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0 184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0 187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0 188 Command_Timeout 0x0032 100 100 000 Old_age Always - 0 189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0 190 Airflow_Temperature_Cel 0x0022 064 061 045 Old_age Always - 36 (Min/Max 34/38) 191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 28 193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 63 194 Temperature_Celsius 0x0022 036 040 000 Old_age Always - 36 (0 19 0 0) 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 43748536879750 241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 2867098636991 242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 17478042509157 SMART Error Log Version: 1 No Errors Logged SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Extended offline Self-test routine in progress 90% 2696 - SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay.

我见过的每一个希捷硬盘都会报告这两个领域的奇异原始价值。

你可以做的一件事情是公用事业（和驱动器）在内部做同样的事情：检查标准化值与阈值。当值降到阈值时，该属性将报告为失败（或失败）。

你可以做的另一件事是从来没有购买另一个希捷驱动器。我走了这条路线，直到他们学习编写固件，我才会买下另一条路线。

Seagate使用SER（Seek_Error_Rate）来编码两个不同的计数器：16个高权重位用于search错误计数，32个低权重位用于search计数。你更希望hex显示，以减轻你读这两个计数器（6个半字节= 2的错误计数+ 4寻道计数）。

RRER（Raw_Read_Error_Rate）不会显示增量计数器，而是类似-10log（ 错误扇区数/磁盘上的总位数）的结果 ，这说明存在最小值和最大值。留在最大的是更好的。

在这里更多的解释： http : //www.users.on.net/~fzabkar/HDD/Seagate_SER_RRER_HEC.html

我所做的是检查阅读hwecc和寻求错误率。我也检查确定搬迁或待定部门不存在。在我得到前3个的＃后，我做了一堆拷贝到驱动器，然后再次检查＃。如果他们没有大涨，我会密切关注驾驶。如果他们开枪，我打电话给供应商，看看要做什么才能获得rma。

我有一个3年的旧驱动器23441590读取错误206428348寻求和27659067 ecc。多数民众赞成在btw电源。而我的5.5码的旧驱动器有0 0 687123415 ecc。智能故障是一个可靠的预警系统，数字虽然可以用来保存驱动器上的标签。我看到很less有驱动器在发生故障之前有一个明智的预测故障。我的3年老驱动器是希捷和5年是三星希捷跑热：/我所有的正在运行的希捷有很多错误，其中我的其他品牌大多没有。

另一件事是保持驱动器偶尔的基准。 hdd tune是windows的一个很好的例子。如果您在没有交换文件的驱动器上运行它，或者从graphics启动，可以告诉您是否有任何区域有读取问题。现代的驱动器通常从50mb +到25mbb的读取速度。如果突然下跌，那么该地区可能存在一个弱势或不利的部门。如果你每个月或者三个月保持一个驱动器的基准，那么如果突发事件发生，你可以有一个好主意。 D4xx纬度是一个很好的例子。当驱动器控制器启动失败时，读取速率将从5mb左右开始，偶尔会突然增加到10mb以上，因此我们一直在使用这些驱动器。您可能必须从一个巴特币磁盘或类似的启动，以确保没有其他人正在使用该驱动器时，虽然你testing。

我经常使用这些结果加上硬盘驱动器调整等，以便在驱动器完全死亡之前让rma驱动器。

我发现自检结果非常可靠，而且不言自明（无论是最后一次运行失败还是通过）。

各种供应商特定的属性就是这样。实际上没有标准化的方法来解释它们（这就是为什么smartmon工具为这些值维护一个驱动器数据库的解释）。你可以在这里find许多标志的含义的描述： http : //en.wikipedia.org/wiki/SMART#Known_ATA_S.MART_attributes

SMART overall-health self-assessment test result: PASSED是从驱动数据库下面打印的值，翻译，规范化和给定的阈值中导出的。

对于标准化的值，下限通常是更好的，但并不是所有的标志都表明那些本身预示机械故障（具有阈值的那些更可能）的事情。像不可纠正的读取错误，旋转失败等可能是指标。

从这些结果看来，你的驱动器看起来状况良好。

我盒子上的smartctl手册页提供了一个Linux Journal的作者文章的链接; 特别是清单3解释了smartctl -a的输出。

尽pipe已经有十多年的历史了，但是我发现它仍然是相关的，并提供了一个权威性的解释。