我有一个能够集中监控Nagios多种客户环境的环境。 这里的想法不是要完全pipe理这些环境,而是让环境在很大程度上是自治的,并且作为无法直接解决的问题的升级途径。
我发现使用NSCA作为通知方法比使用强迫命令的更常见的分布式监视系统具有一些优点。 也就是说,我可以使用Nagios中的通知逻辑来configuration哪些问题升级,以及在什么情况下。 例如,客户可以在涉及到问题之前就承认问题,而基于强迫性的分布式configuration是不可能的。
问题是当通知丢失时,这两个实例可能会失去同步。 对于失败的服务,这可以通过服务升级轻松解决; 如果没有收到故障通知,另一个将很快发送。 但是,在我看来,无论升级设置如何,恢复通知都不会重新发送。 因此,如果中心位置收到故障通知但错过了恢复通知,则两个位置将永远保持不同步。
如果我可以在某个时间间隔内重新发送OK状态的通知,即使没有变化,这个解决scheme也是理想的,但是我看不出有什么办法。 否则,我还没有考虑其他解决scheme?
经过大量研究,答案似乎只是“不”。 任何情况下都不会重新发送恢复通知。
另一种方法是在每次检查后使用强迫服务/主机命令来调用NSCA。 这是一个更普遍的configuration。