Dell Power Edge 2950 – E211 SBE LOG DISABLE DIMM6

任何想法这个错误E211 SBE LOG DISABLE DIMM6可能意味着什么? 任何人都经历过这个?

我知道这听起来很明显,那是我记忆中的第六个银行,客人是什么:

  • 我已经改变了RAM模块的顺序。 在同一个DIMM插槽上出现相同的错误
  • 戴尔已经把MOBO换成了新的。 RAM模块以不同的顺序连接,同样的错误。 已经用OMSA livecd清理了日志。
  • 启动到memtest +不显示任何内容
  • 本主板上所有可能的固件都是最新的

这可能是另一个组件或固件问题?

戴尔也在看一看,但在OMSA创build的系统日志中没有发现任何东西。

一个明显的症状是,错误在一小时的操作后开始。 此硬件上的操作系统是ESXi 5.0.1。 由于这个错误没有造成系统崩溃。

编辑:我已经通过/opt/dell/dset/clearesm.sh liveCD)在新的主板清理了BIOS日志,重新启动到memtest +(仍然在livecd),并在20分钟后显示打开错误消息和memtestfind没有错误…

编辑2: ./dcicfg32 command=clearmemfailures BCM清除Bios(控制+ E在后 – >系统事件日志菜单 – >清除系统事件日志)似乎解决了这个问题。 操作20分钟后,错误恢复。

编辑3: MOBO被改变(见上),并且都有/有相同的错误。 交换内存位置或使用其他2950服务器的内存不会更改错误。

这表明在DIMM 6上发生了单比特错误(SBE),其频率使系统不再logging错误,直到重新启动。 (有关背景信息,请参阅https://support.quest.com/SolutionDetail.aspx?id=SOL60022 。)

更换主板后看到相同的错误有点令人困惑,但replace板有可能与第一块板有相同的缺陷。 由于您移动了DIMM,问题没有遵循DIMM,所以我不太可能怀疑DIMM。

我会为该服务器使用适当的Dell MpMemory诊断,而不是memtest +。 戴尔工具将知道任何戴尔特有的硬件function。

有一个问题,当您说“尝试清理主板日志”时,是指BMC(硬件日志)的日志,还是重置内存错误计数器,如果您正在讨论BMC您需要做什么只是清楚SBE柜台,至less,肯定不是一个虚假的警告。

要清除SBE日志计数器,可以从LIVECD运行以下commnad“./dcicfg32 command = clearmemfailures”。