什么服务器监控工具将扩展到10K-100K节点?

我遇到了很多分布式系统监视工具,可以扩展到1000个节点,但是似乎没有任何一个能够处理10 000甚至10 000个节点。 从理论上讲,这应该可以通过分层的集群networking架构来实现。 有没有人遇到过这样一个要求的监控系统,或者讨论理论实现的白皮书/学术论文?

假设这不是由http://users.nagios.org/directory/Yahoo,-Inc/details组成 ,雅虎使用它为100,000台机器,但有2000个实例部署。 而且我认为DNX适合实例的“pipe理”。

也只是发现梅林似乎能够监测/检查153000主机在6秒,而不是1小时

我过去曾经使用过两种工具。

  • Zabbix是一个免费的开源软件。 据他们的网站声称,它已经被testing了10.000个节点。
  • NetIQ安全pipe理器 (或NetIQ应用程序pipe理器 )是一个封闭的和昂贵的软件。 扩展是非常容易的,但是你需要几台服务器来做(主要是数据库和收集器)。

您可以使用单个主机监视多less台主机,这将大大依赖于您正在运行的检查types,每次检查需要多长时间以及队列是否可以同时运行。

我见过Smokeping运行对付大量的主机。 与简单的设置的nagios相同。 我姊妹公司的伙计们对几台机器运行nagios,每台主机做10-20次检查,还有几百台路由器做了一系列的snmp检查,还有一些其他的“networking”设备做了snmp和自定义脚本的监控。 总而言之,它在机器上超过10K次检查。 只有时间有问题的时候,snmp检查开始滞后。

另外看看Zenoss 。 有几个版本,它的规模。