Harddrive / Raid1问题

我在我的根服务器的硬盘驱动器有问题。

它运行在一个软件Raid1的2个硬盘。

在通过O_DIRECT和innodb_flush_log_at_trx_commit = 0写入大型MySQL数据库后，我replace了其中一个磁盘（sda），因为SMART值显示出较高的错误率。

一周前，再次出现性能问题，并在syslog中显示以下消息：

Sep 25 15:09:41 server02 kernel: ata1.00: exception Emask 0x0 SAct 0x2 SErr 0x0 action 0x6 frozen Sep 25 15:09:41 server02 kernel: ata1.00: failed command: READ FPDMA QUEUED Sep 25 15:09:41 server02 kernel: ata1.00: cmd 60/08:08:58:ed:1e/00:00:79:00:00/40 tag 1 ncq 4096 in Sep 25 15:09:41 server02 kernel: res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout) Sep 25 15:09:41 server02 kernel: ata1.00: status: { DRDY } Sep 25 15:09:41 server02 kernel: ata1: hard resetting link Sep 25 15:09:41 server02 kernel: ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300) Sep 25 15:09:41 server02 kernel: ata1.00: configured for UDMA/133 Sep 25 15:09:41 server02 kernel: ata1.00: device reported invalid CHS sector 0 Sep 25 15:09:41 server02 kernel: ata1: EH complete

/ dev / sdb3被mdadm自动禁用。然后，我更换了第二个硬盘（sdb），更换了电缆和端口。

现在，我又得到了同样的错误：

 Oct 2 21:44:46 server02 kernel: ata2.00: exception Emask 0x0 SAct 0x6 SErr 0x0 action 0x6 frozen Oct 2 21:44:46 server02 kernel: ata2.00: failed command: READ FPDMA QUEUED Oct 2 21:44:46 server02 kernel: ata2.00: cmd 60/18:08:10:08:24/00:00:79:00:00/40 tag 1 ncq 12288 in Oct 2 21:44:46 server02 kernel: res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout) Oct 2 21:44:46 server02 kernel: ata2.00: status: { DRDY } Oct 2 21:44:46 server02 kernel: ata2.00: failed command: READ FPDMA QUEUED Oct 2 21:44:46 server02 kernel: ata2.00: cmd 60/10:10:30:08:24/00:00:79:00:00/40 tag 2 ncq 8192 in Oct 2 21:44:46 server02 kernel: res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout) Oct 2 21:44:46 server02 kernel: ata2.00: status: { DRDY } Oct 2 21:44:46 server02 kernel: ata2: hard resetting link Oct 2 21:44:46 server02 kernel: ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300) Oct 2 21:44:46 server02 kernel: ata2.00: configured for UDMA/133 Oct 2 21:44:46 server02 kernel: ata2.00: device reported invalid CHS sector 0 Oct 2 21:44:46 server02 kernel: ata2.00: device reported invalid CHS sector 0 Oct 2 21:44:46 server02 kernel: ata2: EH complete

并且/ dev / sdb3被再次禁用。

有没有人有任何想法，可能是我的服务器有问题？

谢谢！基督教

更换两个硬盘后，您再次出现错误，指出硬盘有硬件问题。这可能意味着你只是很不吉利，或者还有其他一些问题，这就是磁盘故障。这可能是：

主板问题 – 也许SATA控制器有问题。
布线问题 – 松动，磨损，弯曲等
环境 – 温度，振动，湿度。
SATA芯片驱动程序的问题。
不稳定的AC。

你可以在testing/开发机器上重现问题吗？有什么，这会触发失败（备份，加载峰值，特定的查询）？问题是间歇性的（你logging了几个错误，然后服务器运行正常），或持久性（一旦它开始显示，它一直显示）？

就我个人而言，我不会相信这台机器，而是在查找错误的原因时，将数据迁移到其他服务器。在短时间内有3个磁盘故障是可能的（有时候人们会赢），但是他们不太可能。