我最近从我pipe理的PE 905得到了一个警报: I1912 SEL Full 。 我通过DRACnetworking用户界面检查了SEL,看到以下消息今天重复了大约50次:
"The disk drive bay battery has failed"
几秒钟后,等同的麻烦清除消息(不幸的是,我清除了SEL,看看我是否仍然收到消息之前,我可以抄下来确切的措辞)。
麻烦的是,我甚至没有意识到驱动器托架上有电池。 (它不,是吗?)
盒子里唯一的RAID控制器是PERC 6 / i,而且它的电池报告是好的。 我没有看到任何ROMB错误(我也没有收到警报),也没有任何其他信息表明PERC的电池坏了。
不用说,我search了错误信息,但是我能find的最好的是一篇日文文章。 通过G翻译作者似乎表明,该消息可能表示每个戴尔的RAID电池故障或即将发生的控制器故障。
看起来他更换了控制器和电池,从而解决了这个问题。 但是,两个替代品是必需的? (我的预算紧张,不,我们不再在这台机器上戴尔服务/支持)。
在这个主题上只有一个可用的post,我只想知道是否有人可以更多地了解这个错误。 我很乐意提供任何日志等,但是除SEL中的消息之外,其他所有内容都看起来像是hunky-dory。 事实上,自清理日志以来,错误在过去的一个小时内还没有返回。
谢谢!
它看起来像原来的错误消息是一个新的消息的先驱,实际上确实在谷歌出现了一些结果。 在一个安静的夜晚之后,我开始在系统日志中获得以下消息:
The storage battery has failed. The storage battery is operating normally.
这是昨天晚上展示的模式,但是有不同的信息。

戴尔社区wiki页面报告错误的详细说明如下:
由于散热exception,PERC RAID控制器电池可能失败。
虽然当然可能这是一个局部的散热问题,但系统板温度目前报告为26度。 C,所以这不是一个全系统的散热问题。
PERC 5 / i在戴尔的一个邮件列表中也报告了类似的问题,这些邮件列表并不指出散热原因,而是可能是坏的/旧的固件。 (我的f / w是最新的)。
在我的情况下,再次清除SEL之后,控制器的电池显示状态一切正常,日志中没有新的事件出现。 (通过OpenManage查看)。
我在控制器的电池上启动了一个学习周期,几乎立即报告OM内部已经降级。 此后,日志开始重新填充相同的消息:

基于这个新的信息,我相当确信问题是电池。 我将在今天晚些时候取代它,当我可以到达服务器的位置。
我的假设是,一个学习周期开始在电池上,那时电池开始被报告为坏。 也许它正在加热,因为它被加热,从而导致重复的消息,因为它加热,然后冷却。
我正在回答我自己的问题,因为我希望这有助于任何人search我原来的错误信息(search时不会产生英文结果)。
幸运的是,坏的控制器电池对我来说不是问题,因为有问题的机器连接到SAN,而PERC只负责不是写密集的本地OS卷。 但是,有一点需要注意的是,如果您确实需要使用写入caching,并且拥有多个使用相同电池types的PERC控制器,则至less应保留一个额外的电池。
更新:以科学的名义,让电池的学习周期完成。 它花了一段时间,但成功完成,没有新的错误消息已被添加到ESM日志/ SEL。
当然,电池仍然是可疑的,将被replace,但我会build议任何人遇到我所描述的尝试开始学习循环的症状。
我曾经在几个戴尔PowerEdge系统上看到类似的行为,那里的电池大约五年前。
我所看到的是虚拟磁盘caching重复从回写切换到直写。
当我打电话给戴尔支持时,他们告诉我说这可能是一个电量不足的标志。 在omsa中有一个电池仍然被报告为“OK”的状态,但是电平还不够高。 你可以通过omsa-command-line来检查:
omconfig storage controller action=exportlog controller=0这将创build一个日志文件。
在Linux上:/var/log/lsi_DDMM.log(日和月)。 这是一个ASCII文件(DOS格式),您将看到有关电池的详细信息。