虚拟根服务器中的硬盘驱动器错误消息

在注意到我们的虚拟根服务器(2 x 1 TB RAID 1子集)负载很重后,我在/ var / log / messages(CentOS)中发现了这些消息:

kernel: ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen kernel: ata3.00: failed command: WRITE DMA kernel: ata3.00: cmd ca/00:10:e0:1b:01/00:00:00:00:00/e1 tag 18 dma 8192 out kernel: res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout) kernel: ata3.00: status: { DRDY } kernel: ata3: hard resetting link kernel: Clocksource tsc unstable (delta = -25761696872 ns) kernel: ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 300) kernel: ata3.00: configured for UDMA/100 kernel: ata3.00: device reported invalid CHS sector 0 kernel: ata3: EH complete 

可以请某人带些灯吗? 这是一个严重的硬盘问题或别的什么? 我如何检查虚拟硬盘的健康状况(没有SMARTfunction)?

磁盘没有及时响应,被操作系统重置,这可能意味着很多东西,但最常见的两种是:

  1. 媒体错误 – 磁盘上的某些位置无法读取或写入
  2. 链接错误 – 电缆不良

此错误没有以前的错误或其他错误或增加延迟可能表示媒体错误。 您可以使用smartctl来查看智能计数器中是否有CRC错误。

如果是媒体错误,则由于失败的命令是写入,所以磁盘遇到麻烦。 通常情况下,写入不会因介质错误而失败,并且会在后面的读取失败。 这可能是以前的阅读花了太多时间,写入受到超时。 我也看到它也发生了。

你还应该注意到,链接被重新协商为1.5 Gbps,如果这是第一次出现链接问题,如果这是第三次或更多types的失败,那么这指的是我在Linux中看到的不良行为即使故障不是链路问题,而是介质错误,也会尝试以降低的速度减轻重置。

行动项目:

  • 聪明地检查CRC错误
  • 检查过去有多less错误
  • 如果你想恢复3Gbps的速度,重新启动
  • 检查您的日志中是否有“由于过多错误而禁用NCQ”的消息,这可能会解释磁盘速度减慢,而不是磁盘本身的问题
  • 确保你有备份,因为它可能是你的磁盘失败