思科UCS CPU每天都在同一时间发生故障

情况

  • 最近从2.2升级到3.1(1e)。
  • 自升级以来,每天上午6:51(UTC + 1),我的安装中的B200系列刀片在零到三(大约60)之间出现故障。
  • 它总是相同的三个刀片,全部在不同的机箱。
  • 在SEL中,失败performance为“CPU预测失败”和“CATERR_N”消息的硬挂。
  • 对刀片进行加电循环恢复其服务(至less直到下一次故障)。
  • UCSM中没有任何一次性或重复的时间表,这些时间表在这个时间点附近。
  • 思科TAC正在调查,但并没有说明为什么在每天的同一时间发生故障。

我的研究和怀疑

  • 我有一个工作理论,这些是固件升级已经暴露出来的真正的硬件问题。
  • 在故障排除指南中简要提及了一种叫做“传感器扫描pipe理器”的东西,但是我找不到任何细节,或者是如何监控它。
  • 我几乎排除了一个环境事业。 我们的电力和温度监测器显示当时没有什么不寻常的。 我们不在地震区:-)

这个问题

为什么每天都在同一时间发生故障?

这原来是固件版本3.1(1e) (该链接所需的思科帐户)中的错误。 它被描述为涉及VIC 1340的“罕见事件”和debugging中断。

这是每天在同一时间发生的原因是它是由 –

  • 沉重的内存使用情况,其次是
  • 运行lspci

而这正是Puppet每天早上做的(我们每天只运行一次)。

目前还不清楚为什么只有某些刀片受到这个bug的影响,但升级到版本3.1(1h)解决了这个问题。