读/写2.6.32-22-server上的文件损坏（发生在许多内核上）

服务器启动一段时间（〜周/几天）后，服务器将开始读取损坏的数据。例如，当我重新启动后运行一个文件sha1sum它仍然是一样的。然而过了一段时间，我将开始得到segfaults，从那时起，每当我读这个文件，我得到一个不同的sha1sum。

我已经检查了很长的testingSMART，我已经运行了一个扩展memtest86 +（12通）

我的lspci如下：

 00：00.0主机桥：Advanced Micro Devices [AMD] RS780主机桥
 00：01.0 PCI桥：Advanced Micro Devices [AMD] RS780 PCI至PCI桥（int gfx）
 00：06.0 PCI桥：Advanced Micro Devices [AMD] RS780 PCI至PCI桥（PCIE端口2）
 00：07.0 PCI桥：Advanced Micro Devices [AMD] RS780 PCI至PCI桥（PCIE端口3）
 00：11.0 SATA控制器：ATI Technologies Inc SB700 / SB800 SATA控制器[AHCI模式]
 00：12.0 USB控制器：ATI Technologies Inc SB700 / SB800 USB OHCI0控制器
 00：12.1 USB控制器：ATI Technologies Inc SB700 USB OHCI1控制器
 00：12.2 USB控制器：ATI Technologies Inc SB700 / SB800 USB EHCI控制器
 00：13.0 USB控制器：ATI Technologies Inc SB700 / SB800 USB OHCI0控制器
 00：13.1 USB控制器：ATI Technologies Inc SB700 USB OHCI1控制器
 00：13.2 USB控制器：ATI Technologies Inc SB700 / SB800 USB EHCI控制器
 00：14.0 SMBus：ATI Technologies Inc SBx00 SMBus控制器（rev 3c）
 00：14.1 IDE接口：ATI Technologies Inc SB700 / SB800 IDE控制器
 00：14.3 ISA桥：ATI Technologies Inc SB700 / SB800 LPC主机控制器
 00：14.4 PCI桥：ATI Technologies Inc SBx00 PCI到PCI桥
 00：14.5 USB控制器：ATI Technologies Inc SB700 / SB800 USB OHCI2控制器
 00：18.0主机桥：Advanced Micro Devices [AMD] K10 [Opteron，Athlon64，Sempron] HyperTransportconfiguration
 00：18.1主机桥：AMD公司的K10 [Opteron，Athlon64，Sempron]地址地图
 00：18.2主机桥：Advanced Micro Devices [AMD] K10 [Opteron，Athlon64，Sempron] DRAM控制器
 00：18.3主机桥：Advanced Micro Devices [AMD] K10 [Opteron，Athlon64，Sempron]杂项控制
 00：18.4主机桥：Advanced Micro Devices [AMD] K10 [Opteron，Athlon64，Sempron]链路控制
 01：05.0 VGA兼容控制器：ATI Technologies Inc Radeon HD 3300显卡
 01：05.1audio设备：ATI Technologies Inc RS780 Azalia控制器
 02：00.0以太网控制器：Atheros通信Atheros AR8121 / AR8113 / AR8114 PCI-E以太网控制器（rev b0）
 03：00.0 FireWire（IEEE 1394）：VIA Technologies，Inc.设备3403

我真的可以使用一些这方面的帮助，你有什么想法可能会导致这一点？这真的让我很沮丧，因为它似乎完全随机触发，直到我重新启动后才会消失。我也使用KVM进行虚拟化，并在此服务器上使用MD进行软件RAID，处理器是Phenom II X4 965.我不相信这是软件突袭，但是这会影响也在非突袭分区上托pipe的文件我不知道。

更新2010年6月21日好的，只是更换了主板。仍然有相同的错误。没有CPU错误，我可以find; 磁盘都可以通过智能testing报告。有没有人有任何想法这可能是什么？我正在这里拉我的头发。

更新6月22日10所以我已经检查了日志，并尝试了另一个文件，仍然是同样的事情。这一切都在宿主虚拟机上。

我的直觉告诉我这是一个硬件问题，可能与热量有关（如在运行时间之后显示）。最有可能的是南桥或相关硬件有问题。

考虑在南桥上进行一些广泛的交易testing，或者干脆更换主板。

你的操作系统保持稳定，但你有随机IO错误通常排除CPU /内存，因为这些错误往往会导致操作系统崩溃，并与其他软件一起烧毁。但是大部分的内核是在启动时从磁盘读取的，从来没有换出，所以即使Linux系统无法正常读取磁盘，它也可能会出乎意料的稳定。

主机本身或访客机器上是否发生腐败？ qemu-kvm中存在已知的错误，导致大型虚拟磁盘中的数据损坏（例如，请参阅https://bugs.launchpad.net/ubuntu/+source/qemu-kvm/+bug/574665 ）

我同意@pehrs，因为随着时间的推移，问题不断升温，所以值得研究这个问题的热量方面。你有什么样的服务器？现在大多数机架都配备了许多可用于监视硬件健康状况的传感器。检查lm传感器。如果是戴尔服务器，戴尔OMSA套件可能会有所帮助。我相信其他大玩家也有自己的专有软件包。

我也可以抛出一些其他的想法 – 这些与你所描述的问题的情况并不相符，只是在一段时间之后出现，但是他们不能伤害。

就错误日志而言，您是从磁盘或RAID子系统获取日志中的错误消息吗？还是在dmesg？ Linux 软件-RAID HOTWO提供了一些你要查找的错误信息。驱动器的SMART自检中可能不会显示类似电缆的问题，但您肯定会看到一些错误消息。

什么是RAIDconfiguration？ / proc / mdstat中的任何内容？如果（例如）服务器有3个驱动器RAID 5，而其中一个驱动器可能会导致问题。

另外，请检查您的主板/ SCSI卡/等的固件版本，并查看它是否是最新的，或者是否有任何与已修复的磁盘I / O有关的错误。