SMART提醒我,但我不相信它

我有一台配有四个三星硬盘的服务器。 所有驱动器都是相同的型号,并一起购买。 驱动器是SAMSUNG HE753LJ,固件为1AA01113。

我收到SMART错误,但我有这样的感觉,smartctl不理解他从硬盘上获得的价值。

以下是SMARTtesting的结果:

 asgard:〜#smartctl -H / dev / sdb
 smartctl版本5.38 [i686-pc-linux-gnu]版权所有(C)2002-8 Bruce Allen
主页是http://smartmontools.sourceforge.net/

 ===开始读取智能数据部分===
 SMART全身健康自我评估testing结果:失败!
预计在不到24小时内发生驱动器故障。 保存所有数据。
失败的属性:
 ID#ATTRIBUTE_NAME标记值最差值types已更新WHEN_FAILED RAW_VALUE
   3 Spin_Up_Time 0x0007 001 001 011预失败始终FAILING_NOW 60340

我不相信SMART,因为:

  • 所有磁盘在不到24小时内即将失效已经有一年多的时间了。 没有东西爆炸了。
  • 维基百科说,“ 旋转时间是主轴旋转的平均时间(从零转速到完全运行[毫秒])。 ”这意味着驱动器需要大约一分钟的时间才能醒来?!

我想遵循smartctl的build议,改变这些磁盘,但我不相信我读到的结果。

你怎么看待这件事? 你会怎么做?

谢谢你的帮助。

所有驱动器都是相同的型号,并一起购买。

这是一个滴答作响的炸弹。

根据SMART的消息和上面的报价,您应该立即更换磁盘。

由于驱动器已经被一起购买并且是相同的型号,它们可能具有相同的缺陷,并且在相同的条件下可能全部同时失效。

RAID的主要概念是磁盘在不同时间出现故障,让您有机会一次交换一个磁盘,避免数据丢失。

其他人则报告说,同一个生产批次中同一个RAIDconfiguration中的同一个磁盘arrays出现故障,因此也会出现同样的问题。

我无法强调这一点:你需要开始交换你的驱动器!

我有一个备用驱动器,我仍然可以启动,失败SMART检查每次启动,需要软重置多年,但它只是一个转储,而不是系统盘! 因此,虽然SMART错误可能会持续很长时间,但他们应始终注意生产,因为风险严重超过成本,时间和数据完整性的好处。 谷歌研究了100,00个磁盘,发现 :

SMART数据(自我监测,分析和报告技术)可用于确定驱动器是否将失败。 表示SMART错误的驱动器中有多达30%最终失败,并且“错误”驱动器保持运行的时间越长,崩溃的可能性越严重。 也就是说,许多驱动器在他们生活中的某个时刻显示出SMART错误。

所以这并不总是一个强有力的指标。 但是,SMART错误显着增加了初始检测后立即发生磁盘崩溃的可能性:

在Google上工作的100,000多个驱动器对整体SMART状态的总体预测值几乎没有什么影响,但是表明某些SMART实施跟踪的某些子类别信息与实际的故障率相关 – 特别是在第一个扫描驱动器上的错误,驱动器平均失败的可能性要比没有发生这种错误的可能性高出39倍。

所以统计上你的磁盘可能是好的,因为它已经超过了60天的限制。

尽pipe有很强的相关性,但我们发现仅基于SMART参数的故障预测模型在预测精度上可能受到严重限制,因为我们很大一部分故障驱动器没有显示任何SMART错误信号

但是你愿意继续冒这个险吗? 我会尽快更换磁盘以避免在凌晨起床。

SMART overall-health self-assessment test result: FAILED! 

这个部分不是由smartctl解释的(假设我理解正确,当然) – 驱动已经告诉smartctl对目前的状态并不满意(无论出于何种原因),而smartctl只是向你反馈这个警告。 即使是误解了旋转时间的阅读,我也不认为这是对“自我评估testing”的解读。

我build议尽快将数据从驱动器上移开,最好在下一个电源周期之前,以防出现问题,并且可能会变得更糟。

在磁盘上运行DST,并相应地更换它们。

我会立即更换磁盘,而不会考虑太多。 你会安全的,磁盘很便宜,你会睡得更好。 花在诊断磁盘上的时间可能比磁盘本身更值钱。

确保您拥有最新的智能应用程序副本,而不仅仅包含在您的操作系统中。 智能实用程序会经常更新,某些特定驱动器报告的错误将得到解决。

Google的研究非常丰富。 30%的具有SMART错误的磁盘最终会失败。 这不是我将要处理的几率。 两个磁盘将有9%的机会出现故障,这时你的RAID会被破坏。

几年前,我和一些希捷硬盘有类似的问题。 我们同时购买了大约8个磁盘,而且都是同一批。 大概三年左右,一辆车开了。 18小时后,另一个驱动器去了,24小时后,第三个驱动器去了。