我遇到了很多分布式系统监视工具,可以扩展到1000个节点,但是似乎没有任何一个能够处理10 000甚至10 000个节点。 从理论上讲,这应该可以通过分层的集群networking架构来实现。 有没有人遇到过这样一个要求的监控系统,或者讨论理论实现的白皮书/学术论文?
假设这不是由http://users.nagios.org/directory/Yahoo,-Inc/details组成 ,雅虎使用它为100,000台机器,但有2000个实例部署。 而且我认为DNX适合实例的“pipe理”。
也只是发现梅林似乎能够监测/检查153000主机在6秒,而不是1小时
我过去曾经使用过两种工具。
您可以使用单个主机监视多less台主机,这将大大依赖于您正在运行的检查types,每次检查需要多长时间以及队列是否可以同时运行。
我见过Smokeping运行对付大量的主机。 与简单的设置的nagios相同。 我姊妹公司的伙计们对几台机器运行nagios,每台主机做10-20次检查,还有几百台路由器做了一系列的snmp检查,还有一些其他的“networking”设备做了snmp和自定义脚本的监控。 总而言之,它在机器上超过10K次检查。 只有时间有问题的时候,snmp检查开始滞后。
另外看看Zenoss 。 有几个版本,它的规模。