系统监控冗余

我在一个小型商业环境中进行了咨询,我有两台HyperV主机(<10台虚拟机)+另外两台服务器。

我最近遇到了一个HyperV主机出现CPU问题的问题,它带来了大部分非重要的虚拟机,另外还有一个用于networking和系统监视和可用性的免费软件。 正因为如此,iDRAC也locking了这一事实,所以我没有收到关于这次事故的警报。

所以我想知道如何才能(便宜地)获得冗余可用性监控系统 – 就像在两个不同的HyperV主机上运行Nagios或Zenoss一样简单?

看起来好像运行Nagios / Zenoss /等不止一个副本可能很昂贵,而且开销很大。

思考?

所以我想知道如何才能(便宜地)获得冗余可用性监控系统 – 就像在两个不同的HyperV主机上运行Nagios或Zenoss一样简单?

是。

冗余意味着拥有多个关键组件。 监控是一个关键组件,因此您需要多个监控主机。 为了解决你在问题中提到的直接问题,你只需要在单独的主机上设置第二个金丝雀。
(请注意,如果监控的连续性对您不是至关重要的,那么它不必是监控环境的完整副本:它可能只是一个nagios检查或类似的操作,以确保主要主机启动并运行) 。


更复杂的解决scheme包括监视故障转移,您也可能需要考虑一个外部监视器(像Pingdom这样提供这种服务的许多服务)来监视您的更关键的面向客户的系统,但是第一眼看到的印象是这些都是你想要的 – 你只需要告诉你的监控系统是否已经死亡。

请参阅如何监视监视服务器?

简而言之,获得一个外部监控系统来监控您的本地监控 – 如果您可以将其暴露给networking 。 这可以像在您的内部监控服务器上托pipe一个网站一样简单,这是由良好的第三方服务监控的。

Spicework是一款免费的监控工具,可以帮助您轻松监控非关键虚拟机。

为什么不设置像Pingdom这样的东西来监视监视主机?