读/写2.6.32-22-server上的文件损坏(发生在许多内核上)

服务器启动一段时间(〜周/几天)后,服务器将开始读取损坏的数据。 例如,当我重新启动后运行一个文件sha1sum它仍然是一样的。 然而过了一段时间,我将开始得到segfaults,从那时起,每当我读这个文件,我得到一个不同的sha1sum。

我已经检查了很长的testingSMART,我已经运行了一个扩展memtest86 +(12通)

我的lspci如下:

 00:00.0主机桥:Advanced Micro Devices [AMD] RS780主机桥
 00:01.0 PCI桥:Advanced Micro Devices [AMD] RS780 PCI至PCI桥(int gfx)
 00:06.0 PCI桥:Advanced Micro Devices [AMD] RS780 PCI至PCI桥(PCIE端口2)
 00:07.0 PCI桥:Advanced Micro Devices [AMD] RS780 PCI至PCI桥(PCIE端口3)
 00:11.0 SATA控制器:ATI Technologies Inc SB700 / SB800 SATA控制器[AHCI模式]
 00:12.0 USB控制器:ATI Technologies Inc SB700 / SB800 USB OHCI0控制器
 00:12.1 USB控制器:ATI Technologies Inc SB700 USB OHCI1控制器
 00:12.2 USB控制器:ATI Technologies Inc SB700 / SB800 USB EHCI控制器
 00:13.0 USB控制器:ATI Technologies Inc SB700 / SB800 USB OHCI0控制器
 00:13.1 USB控制器:ATI Technologies Inc SB700 USB OHCI1控制器
 00:13.2 USB控制器:ATI Technologies Inc SB700 / SB800 USB EHCI控制器
 00:14.0 SMBus:ATI Technologies Inc SBx00 SMBus控制器(rev 3c)
 00:14.1 IDE接口:ATI Technologies Inc SB700 / SB800 IDE控制器
 00:14.3 ISA桥:ATI Technologies Inc SB700 / SB800 LPC主机控制器
 00:14.4 PCI桥:ATI Technologies Inc SBx00 PCI到PCI桥
 00:14.5 USB控制器:ATI Technologies Inc SB700 / SB800 USB OHCI2控制器
 00:18.0主机桥:Advanced Micro Devices [AMD] K10 [Opteron,Athlon64,Sempron] HyperTransportconfiguration
 00:18.1主机桥:AMD公司的K10 [Opteron,Athlon64,Sempron]地址地图
 00:18.2主机桥:Advanced Micro Devices [AMD] K10 [Opteron,Athlon64,Sempron] DRAM控制器
 00:18.3主机桥:Advanced Micro Devices [AMD] K10 [Opteron,Athlon64,Sempron]杂项控制
 00:18.4主机桥:Advanced Micro Devices [AMD] K10 [Opteron,Athlon64,Sempron]链路控制
 01:05.0 VGA兼容控制器:ATI Technologies Inc Radeon HD 3300显卡
 01:05.1audio设备:ATI Technologies Inc RS780 Azalia控制器
 02:00.0以太网控制器:Atheros通信Atheros AR8121 / AR8113 / AR8114 PCI-E以太网控制器(rev b0)
 03:00.0 FireWire(IEEE 1394):VIA Technologies,Inc.设备3403

我真的可以使用一些这方面的帮助,你有什么想法可能会导致这一点? 这真的让我很沮丧,因为它似乎完全随机触发,直到我重新启动后才会消失。 我也使用KVM进行虚拟化,并在此服务器上使用MD进行软件RAID,处理器是Phenom II X4 965.我不相信这是软件突袭,但是这会影响也在非突袭分区上托pipe的文件我不知道。

更新2010年6月21日好的,只是更换了主板。 仍然有相同的错误。 没有CPU错误,我可以find; 磁盘都可以通过智能testing报告。 有没有人有任何想法这可能是什么? 我正在这里拉我的头发。

更新6月22日10所以我已经检查了日志,并尝试了另一个文件,仍然是同样的事情。 这一切都在宿主虚拟机上。

我的直觉告诉我这是一个硬件问题,可能与热量有关(如在运行时间之后显示)。 最有可能的是南桥或相关硬件有问题。

考虑在南桥上进行一些广泛的交易testing,或者干脆更换主板。

你的操作系统保持稳定,但你有随机IO错误通常排除CPU /内存,因为这些错误往往会导致操作系统崩溃,并与其他软件一起烧毁。 但是大部分的内核是在启动时从磁盘读取的,从来没有换出,所以即使Linux系统无法正常读取磁盘,它也可能会出乎意料的稳定。

主机本身或访客机器上是否发生腐败? qemu-kvm中存在已知的错误,导致大型虚拟磁盘中的数据损坏(例如,请参阅https://bugs.launchpad.net/ubuntu/+source/qemu-kvm/+bug/574665

我同意@pehrs,因为随着时间的推移,问题不断升温,所以值得研究这个问题的热量方面。 你有什么样的服务器? 现在大多数机架都配备了许多可用于监视硬件健康状况的传感器。 检查lm传感器 。 如果是戴尔服务器,戴尔OMSA套件可能会有所帮助。 我相信其他大玩家也有自己的专有软件包。

我也可以抛出一些其他的想法 – 这些与你所描述的问题的情况并不相符,只是在一段时间之后出现,但是他们不能伤害。

就错误日志而言,您是从磁盘或RAID子系统获取日志中的错误消息吗? 还是在dmesg? Linux 软件-RAID HOTWO提供了一些你要查找的错误信息。 驱动器的SMART自检中可能不会显示类似电缆的问题,但您肯定会看到一些错误消息。

什么是RAIDconfiguration? / proc / mdstat中的任何内容? 如果(例如)服务器有3个驱动器RAID 5,而其中一个驱动器可能会导致问题。

另外,请检查您的主板/ SCSI卡/等的固件版本,并查看它是否是最新的,或者是否有任何与已修复的磁盘I / O有关的错误。