正在使用check_snmp_process.pl通过VPN监控〜100个远程主机。 多less个月来,这工作得很好。 在这个周末我开始看到几乎每个主机/进程都出现错误:报警信号(Nagios超时)错误。 我可以在命令行上使用该命令,并获得成功的响应,所以我不清楚为什么它会在正常使用情况下超时。
今天早上我试着把插件上的“超时”参数设置为20秒。 大概一个小时,这似乎工作,然后在几分钟内失败率恢复到以前的水平。
VPN服务器似乎没有任何exception负载。 nagios机器也不是。
build议在哪里寻找这个来源?
Nagios机器:CentOS 6.5
Nagios版本:3.5.1
插件版本:1.10
编辑:当“大量超时”发生在几秒钟内。 每台主机在报告上显示相同的时间(±5秒)。 这可能是由于nagios强制重新启动服务时重新检查“孤立进程”。 尚未确定。 看起来不祥时,40-50超时一次击中日志。
我有同样的问题,但在编辑脚本check_snmp_process.p l后,从15到40的时间,它的工作。 我的$ TIMEOUT = 40;