Harddrive / Raid1问题

我在我的根服务器的硬盘驱动器有问题。

它运行在一个软件Raid1的2个硬盘。

在通过O_DIRECT和innodb_flush_log_at_trx_commit = 0写入大型MySQL数据库后,我replace了其中一个磁盘(sda),因为SMART值显示出较高的错误率。

一周前,再次出现性能问题,并在syslog中显示以下消息:

Sep 25 15:09:41 server02 kernel: ata1.00: exception Emask 0x0 SAct 0x2 SErr 0x0 action 0x6 frozen Sep 25 15:09:41 server02 kernel: ata1.00: failed command: READ FPDMA QUEUED Sep 25 15:09:41 server02 kernel: ata1.00: cmd 60/08:08:58:ed:1e/00:00:79:00:00/40 tag 1 ncq 4096 in Sep 25 15:09:41 server02 kernel: res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout) Sep 25 15:09:41 server02 kernel: ata1.00: status: { DRDY } Sep 25 15:09:41 server02 kernel: ata1: hard resetting link Sep 25 15:09:41 server02 kernel: ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300) Sep 25 15:09:41 server02 kernel: ata1.00: configured for UDMA/133 Sep 25 15:09:41 server02 kernel: ata1.00: device reported invalid CHS sector 0 Sep 25 15:09:41 server02 kernel: ata1: EH complete 

/ dev / sdb3被mdadm自动禁用。 然后,我更换了第二个硬盘(sdb),更换了电缆和端口。

现在,我又得到了同样的错误:

 Oct 2 21:44:46 server02 kernel: ata2.00: exception Emask 0x0 SAct 0x6 SErr 0x0 action 0x6 frozen Oct 2 21:44:46 server02 kernel: ata2.00: failed command: READ FPDMA QUEUED Oct 2 21:44:46 server02 kernel: ata2.00: cmd 60/18:08:10:08:24/00:00:79:00:00/40 tag 1 ncq 12288 in Oct 2 21:44:46 server02 kernel: res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout) Oct 2 21:44:46 server02 kernel: ata2.00: status: { DRDY } Oct 2 21:44:46 server02 kernel: ata2.00: failed command: READ FPDMA QUEUED Oct 2 21:44:46 server02 kernel: ata2.00: cmd 60/10:10:30:08:24/00:00:79:00:00/40 tag 2 ncq 8192 in Oct 2 21:44:46 server02 kernel: res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout) Oct 2 21:44:46 server02 kernel: ata2.00: status: { DRDY } Oct 2 21:44:46 server02 kernel: ata2: hard resetting link Oct 2 21:44:46 server02 kernel: ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300) Oct 2 21:44:46 server02 kernel: ata2.00: configured for UDMA/133 Oct 2 21:44:46 server02 kernel: ata2.00: device reported invalid CHS sector 0 Oct 2 21:44:46 server02 kernel: ata2.00: device reported invalid CHS sector 0 Oct 2 21:44:46 server02 kernel: ata2: EH complete 

并且/ dev / sdb3被再次禁用。

有没有人有任何想法,可能是我的服务器有问题?

谢谢! 基督教

更换两个硬盘后,您再次出现错误,指出硬盘有硬件问题。 这可能意味着你只是很不吉利,或者还有其他一些问题,这就是磁盘故障。 这可能是:

  1. 主板问题 – 也许SATA控制器有问题。
  2. 布线问题 – 松动,磨损,弯曲等
  3. 环境 – 温度,振动,湿度。
  4. SATA芯片驱动程序的问题。
  5. 不稳定的AC。

你可以在testing/开发机器上重现问题吗? 有什么,这会触发失败(备份,加载峰值,特定的查询)? 问题是间歇性的(你logging了几个错误,然后服务器运行正常),或持久性(一旦它开始显示,它一直显示)?

就我个人而言,我不会相信这台机器,而是在查找错误的原因时,将数据迁移到其他服务器。 在短时间内有3个磁盘故障是可能的(有时候人们会赢),但是他们不太可能。