清除所有和特定连接器的Dell OpenManage SBE内存日志,无需重新启动服务器

运行omreport chassis导致:

 Health Main System Chassis SEVERITY : COMPONENT Ok : Fans Ok : Intrusion Critical : Memory Ok : Power Management Ok : Processors Ok : Temperatures Ok : Voltages Ok : Hardware Log Ok : Batteries For further help, type the command followed by -? 

运行dcicfg command=clearmemfailures为了清除SBE失败:

 Clearing failures using mask: 31 DIMM_X1 : failed status: 270 

基于这个信息,我们假定命令应该在导致问题的内存上发布。

通过执行dcicfg command=clearmemfailures -?来咨询帮助dcicfg command=clearmemfailures -? 导致:

 Dell(R) Data Engine Data Engine Configuration Utility 7.4.0 (BLD_1) Copyright (C) Dell Inc. 1995-2013 Usage: dcicfg command=COMMAND [PARAMETERS...] [OPTIONS...] COMMAND: clearmemfailures Clear memory device failure mode PARAMETERS: listonly=BOOLN (opt.) list all occupied memory connectors connectors=STRING (opt.) memory device connector name (default=all) failures=STRING (opt.) failure type to clear (default=all) 

运行omreport chassis memory指示哪个内存导致问题:

 Index : 3 Status : Critical Connector Name : DIMM_Y1 Type : DDRY - Synchronous Unregistered (Unbuffered) Size : Y MB 

并发出dcicfg command=clearmemfailures connectors=DIMM_Y1表示无法find内存连接器:

 Clearing failures using mask: 31 failed to find any memory connector based on the names provided 

omreport chassis memory index=3表示内存已经抛出SBE:

 Memory Device Information Health : Critical Status : Critical Device Name : DIMM_Y1 Size : Y MB Type : DDRY Synchronous Unregistered (Unbuffered) Speed : Y ns Rank : Dual Failures : Single-bit warning error rate exceeded. Single-bit failure error rate exceeded. 

问题

  1. 失败状态270是什么意思?
  2. 为什么内存连接器在被指定时不能被find并且存在?
  3. 如何清除SBE?

试图解决这个问题

以下Q&A中的命令:

  1. sudo omconfig system esmlog action = clear
  2. sudo omconfig system alertlog action = clear

被发布清除SBE,但是Critical记忆状态依然存在。

我无法使用dcicfg清除SBE日志。 下面的步骤为我工作:

下载戴尔支持实时映像 (此链接底部的下载链接)

  1. 使用“基于DOS的诊断工具(Dell 9G-10G服务器)”或“基于DOS的诊断工具(Dell 11G服务器)”选项启动系统。 显示客户诊断菜单版本1.6。
  2. 显示input选项或字母时,按下<4>键。 显示MS-DOS提示符。
  3. 键入C:,然后按<Enter>键。 当前驱动器更改为C :.
  4. 键入“mpmemory -ptech -tlogclr”,然后按<Enter>键。

我有同样的问题。 在命令之前没有使用sudo。

运行sudo su -然后调用/path/to/dcicfg command=clearmemfailures