check_mk IPMI PCM传感器读数随机失败

我使用check_mk_agent来监视IPMI服务器和安装的freeipmi-tools。 据我所知,监视随机检测IPMI传感器“Temperature_PCH_Temp”返回的值。

这是一个问题,因为它会导致触发通知的CRITICAL状态。 中断只能通过一次检查,以下总是可以的。 温度不在边缘区域,故障之前和之后的读数都不显示温度趋于超过阈值。

有人有一个想法是什么可能是这种行为的原因,以及如何防止它?

听起来像一个硬件故障(片状IPMI板,传感器坏) – 你应该联系你的硬件供应商,并报告问题,看看你是否可以得到一个更换。

当FreeIPMI的ipmi-sensor / ipmimonitoring工具发现一个传感器没有返回读数的时候报告N / A。 尽pipe很less(如voretaq7所说,这很可能是一个传感器),但IPMI传感器只是简单地说:“我现在没有读数”。

我不能说check_mk_agent脚本中的内容,它可能认为“N / A”非常重要,并以此方式报告。

远程系统(如果发生故障)也可能将非法值返回给您,这可能导致在使用输出传感器状态时出现“CRITICAL”状态。

您可能要查看并查看–ignore-not-available-sensors或-ignore-unrecognized-events选项是否可以帮助您解决这种情况。

你已经configuration了检查重试 – 所以它不提醒你只是因为它有一个短暂的混乱,对吧?

顺便说一句,我认为阿尔伯特·楚是正确的N / A被处理不正确。 这可能只是在系统的第一个清单中进行评估。 在check_mk邮件列表中有一个名为Bernhard Schmidt的用户发送了一个包含相关补丁的邮件。

但是,正如这个线程所certificate的那样,这样的问题基本上总是与硬件问题无关:)