监视较大（3000设备）networking的硬件要求

我目前正在评估监测软件（按我的标准）一个更大的networking预计将增长到约3000台设备。我正在find有关硬件需求的数据。（编辑：设备是由SNMP监视的卫星接收器，因此需要无代理监视器。我们主要关心的是识别故障设备，而且我们不需要大量的分析。）

3000台设备每个将有大约40个数据点，以5到10分钟的周期login。轮询时间间隔为10分钟，即每分钟12000个点。这提供了两种负载：轮询应用程序的CPU负载，最重要的是磁盘写入负载来存储这些数据点。

我曾看过Solarwinds Orion，Zenoss，Zabbix和OpenNMS。我们在几百个设备的小型networking上拥有Zenoss和Orion的经验。我最初的印象是：

Zenoss没有一个非常高效的RRD实现，但是允许我们通过添加收集器（在本地存储RRD数据）进行水平扩展。
Orion允许我们添加轮询引擎，但需要一个共享的SQL服务器来提供性能数据。
Zabbix声称扩大到这个水平，但我还没有find任何有用的指导。由于它使用性能数据的数据库，所以数据库调优是关键。
由于经过优化的RRD实施和对分组的支持，OpenNMS看起来是性能领先者。

有没有人有经验或性能数据来监测这个networking规模？

OpenNMS可以完成这项工作。

对于这种types的环境，关键将是CPU线程和可以处理低延迟磁盘写入的东西。我将使用独立服务器（与VM相比），提供12个或更多内核，并计划使用6个或更多主轴的直连存储，或者可以将SSD用于OpenNMS RRD目录。 OpenNMS也可以在数据采集和logging方面进行调整，以提高效率。深入到他们的专业服务团队来帮助安装将是一个不错的select。

据我所知，Zabbix已经安装了10k以上的设备。也许你需要分配负载，即把数据库服务器（如果你的解决scheme需要的话）放到另一台机器上。你也可能想看看Zabbix Proxy。

我有监测这个networking大小的经验。另外，在监控解决scheme方面，我总是在评估新的可能性。

也就是说，我从微软的angular度来看比你更多，我甚至不确定是否会考虑一些你提到的企业级解决scheme的解决scheme，但是我仍然可以提供帮助。

几乎每个监控系统都将由几个通用组件组成 – 数据库和pipe理服务器。（NetIQ，Nimsoft，Quest，VMware，SCOM，仅举几例）。

您需要的硬件数量很大程度上取决于您计划如何进行监控，具体取决于您要捕获多less个数据点。对于CPU利用率，内存，存储空间等最基本的东西，你的要求会更less。如果您想要监控大量的应用程序指标，例如您的主机每秒要处理多less个Web请求，扫描关键字的日志文件等，那么您的监控系统收集的数据量将会大得多，并且所有的严格硬件要求将会增加。

其他要考虑的因素有：你是否想要在每台机器上加载代理（通常允许更详细的信息），还是想尝试完全无代理？你在监视所有的物理机器，所有的虚拟机，还是两者的混合？ networking设备怎么样，你也在监控吗？在像这样的大型异构networking中，通常最终会有多个解决scheme一起运行，以涵盖所有的基础。如果您需要监控整批虚拟机，某些解决scheme（如VMware VC Ops和Quest vFoglight）会从vCenter（或多个vCenter）本身获取信息，这意味着很多指标比在虚拟机本身，这也意味着您可能不需要在虚拟机上加载代理。您通常也可以将更多机器挤在仅限VM的监控解决scheme上。 VMware VC Ops目前拥有在单个VC操作实例上运行10k个虚拟机的客户。

这就是说，以我个人的观点来看，VC Ops几乎就像是一个真正的监控解决scheme，而不是一个大型的分析引擎。根据您当前的增长情况来看，它看起来很酷，“Datacenter中的ESXi主机[x]将在30天内达到容量。”

好吧，一般来说，devise数据库有很多不同的方法，但是请记住，您需要高可用性。如果您的某个数据库节点出现故障，您无法在如此庞大的networking中工作，并获得监控解决scheme的所有权。所以不要购买1台HP Proliant服务器。但是两个。还是三将它们聚类。为HA计划。那价格呢 – $ 30盛大？

其次，许多这些解决scheme将在其基础架构中具有“pipe理服务器”types的angular色。根据我的经验，这些通常可以被虚拟化。它们充当代理和中央存储库之间的中介，平衡负载并确保从数千个代理进入的所有数据以有序的方式插入到存储库中。您会发现，在这些types的解决scheme中，您必须为HA提供一些pipe理服务器，但您不需要太多，因为每个额外的pipe理服务器都会导致争用和locking，因为它们只是将数据插入到存储库。

因此，为这些计划在一个或两个虚拟主机上。也许另外$ 15k？那只是球场。我不知道您的公司是否将在新的思科UCS设备或您从Craigslist购买的Dell PowerEdge上进行构build。

大多数企业级的解决scheme都足够可configuration，能够利用SQL Server或MySQL甚至Postgres。然而，其中很less有一些是完全可怕的，而我通常看到一家公司正在同时运行两个或更多的监控解决scheme。

编辑：也不要忘了计划地理分布。我有服务器在阿姆斯特丹实际居住在迈阿密的监控。这是可能的，但我并不是很自豪地承认这一点。

编辑＃2：同样重要的一点是，虽然有些公司对于在软件上投入资金非常敏感，但这取决于公司的文化，一个好的公司会意识到企业支持的价值。只是要记住的东西。

来自大学的环境，我们做很多networking设备（主要是思科，但检查大量的指标）的可用性监测（确定/警告/关键警报）和性能监测（graphics，RRD）…

我认为这是过分的分析。首先，确定您需要的最less一组指标，分辨率以及您需要存储多长时间。即使您真的需要每隔5到10分钟轮询每3000台设备，对于40个度量标准，您是否需要保留RRDgraphics数据，或者只需使用像Nagios这样的警报，预定义的阈值？

另外，这需要多less可靠？

下面是我该怎么做，请记住，我的默认观点是最低成本，开源，并假设谁正在实施它可以做一些编码：

找出一些可能的解决scheme（Nagios / Icinga？OpenNMS？Cacti或Cricket或mrtg？），这些解决scheme具有一定的灵活性。
获得10或20个便宜，最小的1U服务器，每个服务器可以处理总负载的5％或10％。提出一个algorithm来分配这10或20个主机之间3000个设备的检查/轮询。
如果你只需要提醒，每个主机可以孤立地生活。有一个Nagios盒子可以监视这10-20个主机，只是为了确保它们正在运行并收集数据。
如果您需要使用通用界面进行绘图/趋势分析，则需要执行一些Web工作（PHP？），但是您应该能够将链接graphics/数据/等的界面放在一起。从适当的轮询节点。