Nagios进行冗余监控

我在两台服务器上使用Nagios 4.0.7来监视我的networking。最近我开发了第三个为了有更多的冗余，所以我开始阅读主要与NSCA故障转移冗余的信息。有没有人在这个领域的一点点经验，可以告诉我哪个是最有效和最简单的方法来做到这一点。我读了这个幻灯片，已经帮了我很多，当然这个问题仍然是主机和从机之间的时间同步：

Nagios Conference 2012 – Mike Weber – Failover from Nagios

NSCA是最好的select吗？是故障转移，冗余还是使用两者都是最好的select？

Nagion Master / Slave设置上有一些很棒的文档可以在http://nagios.sourceforge.net/download/contrib/documentation/misc/HighAvailability/NagiosHA_EN.pdf

在我的使用案例中，我使用了一种稍微不同的方法，在发生故障时，我发现更容易设置和恢复。在DC 1中，有一个运行Nagios的虚拟机检查DC 1和2中的所有内容。它使用DRBD设置复制到DC 2中的热备用虚拟机和第三个从机。我使用DRBD的原因是因为它复制整个块设备（甚至通过VPN跨越数据中心），所以恢复是一个快照。它也使得configuration非常简单，并且在Nagios中不需要复杂的configuration。有很多方法可以自动执行失败的节点，比如keepalived，corosync，heartbeat，如果你想完全自动化的话。

在DC 2，我们有完全相同的设置，只有相反。

我的环境不是那么大（450台服务器），所以这个设置运行良好。在更大的环境中，可能需要将监控分布到Nagios节点上，以达到可接受的性能目标。