Solaris / OpenSolaris FMA和内存误报

我们有Supermicro主板和金士顿内存的+500服务器，我们通常会看到以下警报：

# fmdump -v TIME UUID SUNW-MSG-ID Oct 27 15:49:44.9379 108510ec-b4e1-c94b-dd9f-f7b2969a4725 INTEL-8001-94 100% fault.memory.intel.dimm_ce Problem in: hc://:product-id=X7DB8:chassis-id=0123456789:server-id=hostname:serial=180104092839051c6a:part=KINGSTON:revision=C1/motherboard=0/memory-controller=1/dram-channel=3/dimm=0/rank=1 Affects: hc://:product-id=X7DB8:chassis-id=0123456789:server-id=hostname:serial=180104092839051c6a:part=KINGSTON:revision=C1/motherboard=0/memory-controller=1/dram-channel=3/dimm=0/rank=1 FRU: hc://:product-id=X7DB8:chassis-id=0123456789:server-id=hostname:serial=180104092839051c6a:part=KINGSTON:revision=C1/motherboard=0/memory-controller=1/dram-channel=3/dimm=0 Location: DIMM4A

我的问题是：当您在非Oracle硬件上运行时，这些故障有多可信？

我们尝试了几乎所有的东西（不再使用这些组件），但故障随机回来（例如，更换dimm4a，几个月后dimm1b出现故障，更换所有内存和主板，几天后出现另一个故障）。

我们replace的内存使用memtesttesting了几天，我们永远也找不到问题。其他使用Windows和Linux的相同硬件的团队看不到它。 Solaris太敏感了吗？

现在我们正在经历另一轮的记忆替代，但这成为一个痛苦。我们也找不到服务器有什么问题，他们一直工作得很好，但随机出现的内存错误是可怕的。我们应该忽略它们吗？

操作系统：OpenSolaris 2009.6（b111）

我只能猜测，但从我读到的是，你遇到的错误是由于在给定的时间已经超过了可纠正的 ECC错误的数量的事实。这肯定是一个问题，应该加以解决。

但是，如果其他团队在这些框上运行窗口，则不会遇到任何问题，这可能是由于Windows正好纠正了可纠正的ECC错误，并在OpenSolaris或FMA发出警告时保持沉默。

它应该明确不被忽视。如果我是你，我会花时间进一步调查Windows机器，如果有可能检查纠正，可纠正的ECC错误。