Nagp与nrpe服务检查超时

好的,这是交易,我目前正在使用两个分布式的nagios监控服务器和超过70个受监控的主机。 每台主机都通过nrpe addon进行监控,每台主机都有完全相同的软件/硬件configuration。 Nrpe在Centos 5.4上作为xinetd服务运行。Nrpe版本是:2.12(服务器和受监控主机)Nagios插件是:1.4.14

所有nrpe检查都以5分钟为间隔

很less有最后input的主机偶尔会显示“服务检查超时”与受监控的nrpe服务。

那么到目前为止我做了什么:

我已经写了一些额外的包装脚本围绕这些服务来尝试find错误来源,试图在nagios服务器和nrpe服务器上进行debugging。

从下面的debugging中肯定有效:

主机之间的networking连接在两台主机/服务器上都打开Nrpe端口没有任何networking超时

Nrpe检查被正确调用,并且插件工作正常我甚至写了一个logging器脚本,它们在插件执行开始时loggingdate和时间,并且在调用槽nrpe时也是插件输出。 执行永远不会超过2秒

nrpe.conf被设置为等待命令输出60秒,监视服务器上的Nrpe插件被设置为等待至less30秒的输出(即使它将完全不同的错误)。

无论如何,这导致我得出结论,监测主机上的nrpe守护进程有问题。 即使插件返回检查数据nrpe一些如何不明白。

我甚至删除了运行nrpe守护进程的nagios用户的所有shell ulimits,以消除这种情况,但没有帮助。

无论如何,任何帮助,非常感谢。

好吧,我终于搞定了。

问题是两个nagios服务器都在执行服务检查并向主节点报告结果,并且所有这些检查都是完美的。 主节点进行了服务新鲜度检查,因此如果监视服务器无法完成检查,主服务器会自行安排这些检查。

无论如何,新的服务器是在新的IP范围,默认情况下,主服务器上closuresnrpe端口。

开放港口解决了问题。 虽然它返回“服务检查超时”而不是“套接字超时错误”仍然是奇怪的。