Nagios进行冗余监控

我在两台服务器上使用Nagios 4.0.7来监视我的networking。 最近我开发了第三个为了有更多的冗余,所以我开始阅读主要与NSCA故障转移冗余的信息。 有没有人在这个领域的一点点经验,可以告诉我哪个是最有效和最简单的方法来做到这一点。 我读了这个幻灯片,已经帮了我很多,当然这个问题仍然是主机和从机之间的时间同步:

Nagios Conference 2012 – Mike Weber – Failover from Nagios

NSCA是最好的select吗?是故障转移,冗余还是使用两者都是最好的select?

Nagion Master / Slave设置上有一些很棒的文档可以在http://nagios.sourceforge.net/download/contrib/documentation/misc/HighAvailability/NagiosHA_EN.pdf

在我的使用案例中,我使用了一种稍微不同的方法,在发生故障时,我发现更容易设置和恢复。 在DC 1中,有一个运行Nagios的虚拟机检查DC 1和2中的所有内容。它使用DRBD设置复制到DC 2中的热备用虚拟机和第三个从机。我使用DRBD的原因是因为它复制整个块设备(甚至通过VPN跨越数据中心),所以恢复是一个快照。 它也使得configuration非常简单,并且在Nagios中不需要复杂的configuration。 有很多方法可以自动执行失败的节点,比如keepalived,corosync,heartbeat,如果你想完全自动化的话。

在DC 2,我们有完全相同的设置,只有相反。

我的环境不是那么大(450台服务器),所以这个设置运行良好。 在更大的环境中,可能需要将监控分布到Nagios节点上,以达到可接受的性能目标。