我们有Supermicro主板和金士顿内存的+500服务器,我们通常会看到以下警报:
# fmdump -v TIME UUID SUNW-MSG-ID Oct 27 15:49:44.9379 108510ec-b4e1-c94b-dd9f-f7b2969a4725 INTEL-8001-94 100% fault.memory.intel.dimm_ce Problem in: hc://:product-id=X7DB8:chassis-id=0123456789:server-id=hostname:serial=180104092839051c6a:part=KINGSTON:revision=C1/motherboard=0/memory-controller=1/dram-channel=3/dimm=0/rank=1 Affects: hc://:product-id=X7DB8:chassis-id=0123456789:server-id=hostname:serial=180104092839051c6a:part=KINGSTON:revision=C1/motherboard=0/memory-controller=1/dram-channel=3/dimm=0/rank=1 FRU: hc://:product-id=X7DB8:chassis-id=0123456789:server-id=hostname:serial=180104092839051c6a:part=KINGSTON:revision=C1/motherboard=0/memory-controller=1/dram-channel=3/dimm=0 Location: DIMM4A
我的问题是:当您在非Oracle硬件上运行时,这些故障有多可信?
我们尝试了几乎所有的东西(不再使用这些组件),但故障随机回来(例如,更换dimm4a,几个月后dimm1b出现故障,更换所有内存和主板,几天后出现另一个故障)。
我们replace的内存使用memtesttesting了几天,我们永远也找不到问题。 其他使用Windows和Linux的相同硬件的团队看不到它。 Solaris太敏感了吗?
现在我们正在经历另一轮的记忆替代,但这成为一个痛苦。 我们也找不到服务器有什么问题,他们一直工作得很好,但随机出现的内存错误是可怕的。 我们应该忽略它们吗?
操作系统:OpenSolaris 2009.6(b111)
我只能猜测,但从我读到的是,你遇到的错误是由于在给定的时间已经超过了可纠正的 ECC错误的数量的事实。 这肯定是一个问题,应该加以解决。
但是,如果其他团队在这些框上运行窗口,则不会遇到任何问题,这可能是由于Windows正好纠正了可纠正的ECC错误,并在OpenSolaris或FMA发出警告时保持沉默。
它应该明确不被忽视。 如果我是你,我会花时间进一步调查Windows机器,如果有可能检查纠正,可纠正的ECC错误。