nagios服务器的高负载 – nagios服务器的服务检查次数太多了?

我有一个运行Ubuntu 2.0GHz英特尔处理器,RAID10arrays和400 MB RAM的nagios服务器。 它监测8台主机上共42个服务,其中大部分使用check_http插件检查,甚至5分钟,每分钟一次。 最近在nagios服务器上的负载已经高于4,通常高达6个。服务器还运行cacti,每分钟收集6个主机的统计信息。

我想知道,像这样的硬件能够处理多less服务? 负载是如此之高,因为我正在推动硬件的限制,或者这个硬件应该能够处理42个服务检查加上仙人掌? 如果硬件不足,我应该增加更多的内存,更多的内核还是更快的内核? 其他人正在运行哪些硬件/服务检查?

你需要弄清楚你的瓶颈在哪里

我运行一个nagios监视器,用http,ping和ssh检查来检查400多个主机。 (以及许多其他被动检查和nscd)

这是使用RAID10中的4个SAS磁盘的2xQuadCore服务器。

我怀疑你有IO争用,因为写入很多rrds是非常低效的。

你需要找出哪个进程正在占用你的资源。 (仙人掌,纳吉奥斯或其他)

对于IO检查,我喜欢iotop。 安装iotop(9.04包在8.04上运行)

但是,否则顶部也应该帮助你find你的负载猪。

一分钟的仙人掌是相当积极的。 (我以5米的间隔跑我的)

我曾经听说过rrd写争用的一种方法,就是将你的rrd存储放在ramdisk / tmpfs上。 (一定要rsync,现在,然后永久存储)

祝你好运。

除非产生大部分负载的仙人掌,否则你应该能够运行比硬件更多的检查。

我正在一台运行在微软虚拟服务器上的FreeBSD虚拟机上运行nagios,而这台虚拟服务器是一台慢速老旧的PC(Pentium 3 1GHz,配有一个缓慢的PATA磁盘)。 虚拟机只有128MB内存,性能可怕。

然而,平均负载约为0.2,在42台主机上运行158次检查。

在256MB内存的旧PIII上,我正在积极监视大约230种不同的服务。 同样的机器也运行MRTG和HylaFAX为我们所有传入的传真,并且这样做相当舒适。

你应该可以用这个硬件来运行一大堆的nagios检查。 我们运行一个类似的设置,大约有70个检查和Nagiosgraph – 主要的区别是增加了内存(这很便宜,所以我打到了2Gb)。

尝试运行顶部或ps -aux来查看CPU是否过载,但我怀疑它。 你也可能想检查一下nagios的并行化文档 ,看看你的安装是否试图一次运行太多的检查,而不是序列化它们。