使用smartctl诊断磁盘运行状况

你如何确定一个磁盘使用smartctl有问题？

我有一个使用软件RAID1的Ubuntu 12.04服务器，它变得完全没有反应。我重新启动，并在启动时挂起消息“/ tmp没有准备好或不存在”，所以我跳过了，并启动了一个手动恢复terminal。一切似乎都很好，除了我的RAID重新同步速度非常慢。但是， cat /proc/mdstat没有显示任何实际的RAID故障。

按照这里的说明，我碰到了/proc/sys/dev/raid/speed_limit_min ，但是这并没有太大的帮助。我的1TBarrays现在已经恢复了30分钟，但只完成了0.3％。

所以我安装了smartmontools并使用以下smartmontools检查磁盘：

 sudo smartctl --all /dev/sda sudo smartctl --all /dev/sdb

两者都报告“通过”健康，但sdb也显示了几行：

 Error 83 occurred at disk power-on lifetime: 15147 hours Error 82 occurred at disk power-on lifetime: 15147 hours Error 81 occurred at disk power-on lifetime: 15147 hours Error 80 occurred at disk power-on lifetime: 15147 hours

以及每种hex转储。

这是什么意思？我应该将这些错误解释为我的sdb磁盘快要死了吗？我如何确认？

编辑：也相关，自从崩溃后，我现在无法SSH到服务器。我可以从物理terminal访问它，似乎没有任何过度的负载。我确定防火墙被禁用了，我仍然可以ping服务器，但ssh myuser@myserver导致“连接超时”。

确保你在一切之前备份。

关于/ tmp错误，这是一个已知的错误：

https://bugs.launchpad.net/ubuntu/+source/mountall/+bug/1091792

回复：SMART错误：

得到一个很长的testing： smartctl -t long /dev/sdb

你可以随时运行。这将需要一些时间。完成后，使用smartctl -l /dev/sdb查看结果。

当然，要确保你先备份完毕。

我最担心的事情是，你似乎有一个突然的错误集群（在驱动器<2年的活动）。（但事实上，在这个日志里，你会发现很多其他的噪音）。偶尔的错误是非常正常的，同时很多是值得关注的。

SMART 有时对于预警很有用，你当然不能单靠它。

所以再次备份也不会有什么伤害的。但我不认为你有任何理由恐慌。

SMART属性表中的许多属性都是发生故障的驱动器的有用指标。你可以用'smartctl -data -A / dev / sdb'的输出来更新你的post吗？属性表是依赖于驱动器的，所以我不能列出那些相关的，除了像'Reallocated_Sector_Ct'，'Offline_Uncorrectable'等相当通用的。SMART上的维基百科页面包含大多数属性的描述。

quadruplebucky的SMART自检也很有用，但是如果驱动器出现故障，这些属性计数器会马上告诉你。驱动器可能不会触发整体SMART健康警告，但仍然显然是在出路

如果其中一个磁盘掉出来，可能是有原因的。我会更换失败的磁盘（听起来像sdb），并重build为相反。对智能数据。

智能数据结构中的smartctl -a输出中有一个很大的部分。这是一个很大的单词和数字matrix，告诉你特定testing的当前阈值。一些你想要注意的重要的是：

Raw_Read_Error_Rate（id 1）
Reallocated_Sector_Ct（id 5）
Spin_Retry_Count（id 10）
Reported_Uncorrect（id 187）
Offline_Uncorrectable（id 198）

这些都涉及到磁盘表面的问题（与主轴电机相关的ID10除外）。磁盘的表面最有可能失败的驱动器中的所有东西。如果其中的任何一个都exception高（数百或数千），那么肯定会有一个大问题。

底部的寄存器如下所示：

 ER ST SC SN CL CH DH
 -   -   -   -   -   -   - 
 40 51 00 ff ff ff 0f错误：UNC在LBA = 0x0fffffff = 268435455

在这种情况下，磁盘上出现UNC错误（不可纠正的读/写错误）。

我的意见是，如果你看到这样的事情：

 错误518发生在磁盘开机生命周期：16859小时

…方便的时候应该更换磁盘。

SSH问题可能与磁盘有关（可能是损坏的部分在SSH二进制文件下），但这可能是其他问题，您应该单独调查。

关于您的备份 – 等待SMART错误或警告为时已晚，无法进行备份。最佳实践将包括经过testing的备份计划，以及存储子系统中足够的冗余以处理预期的硬件故障。