翻转 – 检测和原因

大约一个星期前,我经历了一个非常有趣的情况。 我有一个带有华硕P5LD2主板的工作站 – 台式机,4 x 1 GB的非注册DDR2金士顿内存。 IIRC 12-14个月前曾经是同一台机器的受害者。 在中风的时候,PSU炸了,HDD死了。 我replace了两个,跑了testing,包括memtest ,一切似乎都很好。 用户正在愉快地工作,直到上周有一天,他在他的一些文件中发现了一些最近的数据“腐败”。 我调查了这个问题,并设法缩小到主板故障。 然而,“数据腐败”是相当有趣和可重复的:

  • 将文本文件从本地目录复制到另一个本地目录,并在两个版本之间运行diff ,文件中只有一处随机地改变了一点;
  • 这个位始终是8位中的第6位,在hex文本编辑器中查看,即hex19变为hex39;
  • 在访问NFS装载和本地装载时,问题是可重现的。 来自其他客户的重复testing没有产生任何差异;
  • 当通过rsync -av通过networking从本机复制时,命令失败, Corrupted MAC on input. Disconnecting: Packet corrupt出现Corrupted MAC on input. Disconnecting: Packet corrupt Corrupted MAC on input. Disconnecting: Packet corrupt ;
  • 尝试相同的MB,但不同的内存设置 – 再次的差异;
  • 旧的内存设置在另一个华硕P5LD2 MB – 没有差异;
  • memtest运行超过24小时 – 没有报告单个错误。

从testing中得出的结论 – 只有在这台机器上才会发生翻转,而不pipe所使用的内存设置和数据位置(本地还是NFS)。

根据我所有的testing,剩下的只有主板和CPU。

我的问题是:

  1. 什么原因导致了翻转,究竟发生了什么?
  2. 有没有办法检测到它?
  3. 如何testing/探测它,当memtest失败?

我内部仍然有麻烦的机器,并且愿意进行任何testing以了解更多信息。

操作系统是Ubuntu Lucid 10.04,64位。

编辑我忘了提到,大多数(如果不是全部)电容器上的MB弯曲在顶部,而不是平坦的。

听起来像CPU访问外围设备,如磁盘控制器和网卡的问题。 这可能是北桥过热。 当CPU很热的时候,北桥比其他的要热。 也可能是CPU过热。

在memtest期间,只有最less的I / O和最less的CPU工作。

我忘了提到大多数(如果不是全部的话)电容器在MB上弯曲的顶部,而不是平坦的。

随着负载的增加,这将导致提供给RAM,CPU和北桥等组件的直stream电源嘈杂。 这可能很容易成为你的问题的原因。 我会说主板应该退休了。