使用smartctl诊断磁盘运行状况

你如何确定一个磁盘使用smartctl有问题?

我有一个使用软件RAID1的Ubuntu 12.04服务器,它变得完全没有反应。 我重新启动,并在启动时挂起消息“/ tmp没有准备好或不存在”,所以我跳过了,并启动了一个手动恢复terminal。 一切似乎都很好,除了我的RAID重新同步速度非常慢。 但是, cat /proc/mdstat没有显示任何实际的RAID故障。

按照这里的说明,我碰到了/proc/sys/dev/raid/speed_limit_min ,但是这并没有太大的帮助。 我的1TBarrays现在已经恢复了30分钟,但只完成了0.3%。

所以我安装了smartmontools并使用以下smartmontools检查磁盘:

 sudo smartctl --all /dev/sda sudo smartctl --all /dev/sdb 

两者都报告“通过”健康,但sdb也显示了几行:

 Error 83 occurred at disk power-on lifetime: 15147 hours Error 82 occurred at disk power-on lifetime: 15147 hours Error 81 occurred at disk power-on lifetime: 15147 hours Error 80 occurred at disk power-on lifetime: 15147 hours 

以及每种hex转储。

这是什么意思? 我应该将这些错误解释为我的sdb磁盘快要死了吗? 我如何确认?

编辑:也相关,自从崩溃后,我现在无法SSH到服务器。 我可以从物理terminal访问它,似乎没有任何过度的负载。 我确定防火墙被禁用了,我仍然可以ping服务器,但ssh myuser@myserver导致“连接超时”。

确保你在一切之前备份。

关于/ tmp错误,这是一个已知的错误:

https://bugs.launchpad.net/ubuntu/+source/mountall/+bug/1091792

回复:SMART错误:

得到一个很长的testing: smartctl -t long /dev/sdb

你可以随时运行。 这将需要一些时间。 完成后,使用smartctl -l /dev/sdb查看结果。

当然,要确保你先备份完毕。

我最担心的事情是,你似乎有一个突然的错误集群(在驱动器<2年的活动)。 (但事实上,在这个日志里,你会发现很多其他的噪音)。 偶尔的错误是非常正常的,同时很多是值得关注的。

SMART 有时对于预警很有用,你当然不能单靠它。

所以再次备份也不会有什么伤害的。 但我不认为你有任何理由恐慌。

SMART属性表中的许多属性都是发生故障的驱动器的有用指标。 你可以用'smartctl -data -A / dev / sdb'的输出来更新你的post吗? 属性表是依赖于驱动器的,所以我不能列出那些相关的,除了像'Reallocated_Sector_Ct','Offline_Uncorrectable'等相当通用的。SMART上的维基百科页面包含大多数属性的描述。

quadruplebucky的SMART自检也很有用,但是如果驱动器出现故障,这些属性计数器会马上告诉你。 驱动器可能不会触发整体SMART健康警告,但仍然显然是在出路

如果其中一个磁盘掉出来,可能是有原因的。 我会更换失败的磁盘(听起来像sdb),并重build为相反。 对智能数据。

智能数据结构中的smartctl -a输出中有一个很大的部分。 这是一个很大的单词和数字matrix,告诉你特定testing的当前阈值。 一些你想要注意的重要的是:

  • Raw_Read_Error_Rate(id 1)
  • Reallocated_Sector_Ct(id 5)
  • Spin_Retry_Count(id 10)
  • Reported_Uncorrect(id 187)
  • Offline_Uncorrectable(id 198)

这些都涉及到磁盘表面的问题(与主轴电机相关的ID10除外)。 磁盘的表面最有可能失败的驱动器中的所有东西。 如果其中的任何一个都exception高(数百或数千),那么肯定会有一个大问题。

底部的寄存器如下所示:

 ER ST SC SN CL CH DH
 -   -   -   -   -   -   - 
 40 51 00 ff ff ff 0f错误:UNC在LBA = 0x0fffffff = 268435455

在这种情况下,磁盘上出现UNC错误(不可纠正的读/写错误)。

我的意见是,如果你看到这样的事情:

 错误518发生在磁盘开机生命周期:16859小时 

…方便的时候应该更换磁盘。

SSH问题可能与磁盘有关(可能是损坏的部分在SSH二进制文件下),但这可能是其他问题,您应该单独调查。

关于您的备份 – 等待SMART错误或警告为时已晚,无法进行备份。 最佳实践将包括经过testing的备份计划,以及存储子系统中足够的冗余以处理预期的硬件故障。