我有一个NAS盒子里有6个驱动器。 其中两个是希捷,他们返回高RAW_VALUES的错误; 见下文。
我的其他驱动器显示值低得多。
这是报警的原因吗? 或只是希捷报道的方式?
看看Raw_Read_Error_Rate
和Seek_Error_Rate
:
# smartctl -a /dev/ada1 === START OF INFORMATION SECTION === Device Model: ST3000DM001-9YN166 Serial Number: W1F09S26 LU WWN Device Id: 5 000c50 0456076fc Firmware Version: CC4C User Capacity: 3,000,592,982,016 bytes [3.00 TB] Sector Sizes: 512 bytes logical, 4096 bytes physical Device is: Not in smartctl database [for details use: -P showall] ATA Version is: 8 ATA Standard is: ATA-8-ACS revision 4 Local Time is: Sat Aug 18 17:34:24 2012 EDT SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x82) Offline data collection activity was completed without error. Auto Offline Data Collection: Enabled. Self-test execution status: ( 249) Self-test routine in progress... 90% of test remaining. Total time to complete Offline data collection: ( 575) seconds. Offline data collection capabilities: (0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 1) minutes. Extended self-test routine recommended polling time: ( 255) minutes. Conveyance self-test routine recommended polling time: ( 2) minutes. SCT capabilities: (0x3085) SCT Status supported. SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 111 099 006 Pre-fail Always - 34053632 3 Spin_Up_Time 0x0003 093 092 000 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 32 5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0 7 Seek_Error_Rate 0x000f 060 055 030 Pre-fail Always - 21480133713 9 Power_On_Hours 0x0032 097 097 000 Old_age Always - 2696 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 32 183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0 184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0 187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0 188 Command_Timeout 0x0032 100 100 000 Old_age Always - 0 189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0 190 Airflow_Temperature_Cel 0x0022 064 061 045 Old_age Always - 36 (Min/Max 34/38) 191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 28 193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 63 194 Temperature_Celsius 0x0022 036 040 000 Old_age Always - 36 (0 19 0 0) 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 43748536879750 241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 2867098636991 242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 17478042509157 SMART Error Log Version: 1 No Errors Logged SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Extended offline Self-test routine in progress 90% 2696 - SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay.
我见过的每一个希捷硬盘都会报告这两个领域的奇异原始价值。
你可以做的一件事情是公用事业(和驱动器)在内部做同样的事情:检查标准化值与阈值。 当值降到阈值时,该属性将报告为失败(或失败)。
你可以做的另一件事是从来没有购买另一个希捷驱动器。 我走了这条路线,直到他们学习编写固件,我才会买下另一条路线。
Seagate使用SER(Seek_Error_Rate)来编码两个不同的计数器:16个高权重位用于search错误计数,32个低权重位用于search计数。 你更希望hex显示,以减轻你读这两个计数器(6个半字节= 2的错误计数+ 4寻道计数)。
RRER(Raw_Read_Error_Rate)不会显示增量计数器,而是类似-10log( 错误扇区数/磁盘上的总位数)的结果 ,这说明存在最小值和最大值。 留在最大的是更好的。
在这里更多的解释: http : //www.users.on.net/~fzabkar/HDD/Seagate_SER_RRER_HEC.html
我所做的是检查阅读hwecc和寻求错误率。 我也检查确定搬迁或待定部门不存在。 在我得到前3个的#后,我做了一堆拷贝到驱动器,然后再次检查#。 如果他们没有大涨,我会密切关注驾驶。 如果他们开枪,我打电话给供应商,看看要做什么才能获得rma。
我有一个3年的旧驱动器23441590读取错误206428348寻求和27659067 ecc。 多数民众赞成在btw电源。 而我的5.5码的旧驱动器有0 0 687123415 ecc。 智能故障是一个可靠的预警系统,数字虽然可以用来保存驱动器上的标签。 我看到很less有驱动器在发生故障之前有一个明智的预测故障。 我的3年老驱动器是希捷和5年是三星希捷跑热:/我所有的正在运行的希捷有很多错误,其中我的其他品牌大多没有。
另一件事是保持驱动器偶尔的基准。 hdd tune是windows的一个很好的例子。 如果您在没有交换文件的驱动器上运行它,或者从graphics启动,可以告诉您是否有任何区域有读取问题。 现代的驱动器通常从50mb +到25mbb的读取速度。 如果突然下跌,那么该地区可能存在一个弱势或不利的部门。 如果你每个月或者三个月保持一个驱动器的基准,那么如果突发事件发生,你可以有一个好主意。 D4xx纬度是一个很好的例子。 当驱动器控制器启动失败时,读取速率将从5mb左右开始,偶尔会突然增加到10mb以上,因此我们一直在使用这些驱动器。 您可能必须从一个巴特币磁盘或类似的启动,以确保没有其他人正在使用该驱动器时,虽然你testing。
我经常使用这些结果加上硬盘驱动器调整等,以便在驱动器完全死亡之前让rma驱动器。
我发现自检结果非常可靠,而且不言自明(无论是最后一次运行失败还是通过)。
各种供应商特定的属性就是这样。 实际上没有标准化的方法来解释它们(这就是为什么smartmon工具为这些值维护一个驱动器数据库的解释)。 你可以在这里find许多标志的含义的描述: http : //en.wikipedia.org/wiki/SMART#Known_ATA_S.MART_attributes
SMART overall-health self-assessment test result: PASSED
是从驱动数据库下面打印的值,翻译,规范化和给定的阈值中导出的。
对于标准化的值,下限通常是更好的,但并不是所有的标志都表明那些本身预示机械故障(具有阈值的那些更可能)的事情。 像不可纠正的读取错误,旋转失败等可能是指标。
从这些结果看来,你的驱动器看起来状况良好。
我盒子上的smartctl
手册页提供了一个Linux Journal的作者文章的链接; 特别是清单3解释了smartctl -a
的输出。
尽pipe已经有十多年的历史了,但是我发现它仍然是相关的,并提供了一个权威性的解释。