Nagios:如果问题已确认但未恢复,请发送升级警报(OK状态)

我想我知道答案(不可能) – 但是想看看有没有人有一个聪明的想法,或者我只是错了这个问题。

目标

如果出现以下情况,我们希望我们的class次经理得到服务中断的通知

  • 该服务已经停止了一段时间。
  • 即使问题得到了确认,通知也应该发送。

Nagios文档:

对于通知:

当且仅当一个或多个升级定义匹配正在发送的当前通知时,通知才会升级。

致谢:

允许您确认指定服务的当前问题。 通过确认当前的问题, 将来的通知(针对相同的服务状态)将被禁用。 如果“sticky”选项设置为一(1),则确认将一直保留,直到服务返回OK状态。 否则,当服务改变状态时,确认将被自动删除。 如果“通知”选项设置为一(1),则会向联系人发送通知,表明当前的服务问题已被确认。 如果“persistent”选项设置为1,与确认关联的注释将在Nagios进程重新启动之后存活。 如果不是,下次Nagios重新启动时,注释将被删除。

我的理解是,如果问题得到了承认,那么就没有进一步的通知了 – 我认为这也适用于升级通知?

我没有看到这个方法。

我们的工作stream程需要L1团队承认这个问题,如果他们能够处理这个问题,并按需要升级。 但是,我们想要build立一个自动的过程来确保这些升级发生。

Nagios是我想要做的事情,但如果不可能,我们可能不得不在票务方面处理这个问题。

谢谢!

我有一个Perl脚本来做到这一点。 您只需扫描“status.dat”文件即可:

host checks > last_time_up = <value> service checks > last_time_ok = <value> 

两者均存储时期值,如果超过当前时期的特定秒数,则会将check_description和/或host_name添加到发送的电子邮件中。 我的脚本还检查'problem_has_been_acknowledged'条目,并让我知道它是否已被确认。 所述脚本每30分钟从crontab条目中发出所有匹配的主机/服务检查的列表。