我有一个监视许多服务器的Nagios服务器。 我们不时遇到一个当时无法解决的错误,我们暂时离开。 发生这种情况时,我们会不断收到关于失败服务的电子邮件通知。 所以,如果我们在第二天没有处理这个问题 – 我们会收到大约500封电子邮件通知。 现在我的问题是,notification_interval和interval_length之间有什么区别,我应该编辑哪个值? 我愿意configuration它的方式,当发生错误时,我只会得到1通知有关的问题,而不是每小时10例如通知。 我希望Nagios在发生错误时只发送一次电子邮件,并且每12小时发送一次,直到错误得到修复。 如何实现?
您应该单独保留这些设置,并使用Nagios中的确认function。
这可以让你告诉Nagios你对这个问题的了解,然后它会抑制通知,直到状态发生变化(即变坏,或者开始扑动,或者错误消失,在这种情况下警报也会停止)。
请参阅Acknowledge_Host_Problem更好地解释这是什么。 对不起,我找不到比此更新的页面,但它足以说明这个概念。
要直接回答你的问题,即使我认为有一个更好的方法:
因此,要在通知之间获得12小时,可以将notification_interval设置为720,并保留interval_length 。
但是我仍然认为这个确认是更好的,因为它让Nag ios能够让你的团队保持警惕,直到他们采取某种行动。
请注意,无论哪种方式,Nagios仍可能会更频繁地发送通知,具体取决于发生的情况。 我有一些关于CPU使用情况的警报,它在刚好在临界阈值之间振荡,无论我做了什么,每次超过临界阈值时都会发出警报。 Nagios中的震荡检测用于处理这些情况。 或者你可能想看看你的警报阈值。
notification_interval和interval_length有什么区别?
interval_length :每“单位间隔”的秒数,默认值是60 notification_interval :重新通知之前要等待的“时间单位”的数量 我愿意configuration它的方式,当发生错误时,我只会得到1通知有关的问题,而不是每小时10例如通知。
将notification_interval设置为0,Nagios不会重新通知有关此服务/主机问题的联系。
我希望Nagios在发生错误时只发送一次电子邮件,并且每12小时发送一次,直到错误得到修复。
如果您没有更改interval_length ,只需将notification_interval设置为… 720。