在几台服务器的dmesg中出现同样的硬盘问题

我们有一些SuperMicro MicroCloud设备。

总共有16个服务器（2×8），它们都是在dmesg中随机发送这些消息的：

[4661350.802707] ata2.00: failed command: WRITE FPDMA QUEUED [4661350.802734] ata2.00: cmd 61/00:28:00:d0:fc/04:00:0f:00:00/40 tag 5 ncq 524288 out [4661350.802735] res 40/00:0c:00:f8:fc/00:00:0f:00:00/40 Emask 0x10 (ATA bus error) [4661350.802821] ata2.00: status: { DRDY }

即使由于错误，一切似乎都很好，但忽视它们却感觉非常错误。它主要发生在磁盘活动高的时期。

在单台服务器上，即使在高磁盘活动期间也会随机停止。

谷歌search表明，这可能是由于连接器松动或驱动器故障，但它发生在16台不同types的硬盘驱动器甚至不同types的服务器（8个使用7200 RPM WD黑色SATA驱动器，另外8个使用10000 RPM VelociRaptor）。

我们尝试了两种不同的Linux内核，2.6.32（Debian Squeeze）和3.2.44（Debian Wheezy）。

服务器厂商build议升级到最新的BIOS，但我们已经在运行它。

所以，现在我们卡住了:)有人有一个build议？

完整的dmesg： http : //pastebin.com/Z9k1kXbc

更新： 吉姆加里森指出我AskUbuntu问题，他们提到有缺陷的英特尔芯片组。我现在担心我们会受到这个影响，尽pipe它已经在2011年被发现了。（这些服务器是在2012年第四季度build成的，但是SuperMicro从2011年开始可能会有一个旧批次 – 他们自己制造主板）。

“lspci”给了我这个：

 00:00.0 Host bridge: Intel Corporation Sandy Bridge DMI2 (rev 07) 00:1f.2 SATA controller: Intel Corporation Patsburg 6-Port SATA AHCI Controller (rev 06)

softpedia新闻文章提到“rev04”受到影响。我应该从lspci的“rev 07”中收集到我们没有受到影响吗？

来自2013年6月的英特尔勘误提到了一些类似的问题：

由于Intel 6系列芯片组和Intel C200系列芯片组的电路devise问题，电气寿命耗尽可能会影响SATA端口2-5的时钟分配。随着时间的推移，这可能会在SATA端口2-5上performance为function问题。

该芯片组在勘误表中被命名为“英特尔®Q67芯片组”，“英特尔®Q65芯片组”等。如何从Debian命令提示符找出哪种types的芯片组（我喜欢这样命名）？

更新： 我想，现在我已经find了正确的芯片组勘误。（这是BD82C602J）。看起来没什么太严重的。

这当然看起来像一个控制器问题给我。希望你有一些保修。这是一个总线错误，而不是一个没有反应的驱动器，通常是有缺陷的驱动器控制器板和边缘电缆（或背板）的情况; 它看起来像是系统板。

您也可以尝试刷新BIOS（即使使用相同的版本）以排除某种BIOS损坏。

我相信这样做的结果只是一个复位而已，所以你可能没有什么可担心的，尽pipe这会对性能产生负面影响。它也可能随着时间的推移而恶化。