Nagp与nrpe服务检查超时

好的，这是交易，我目前正在使用两个分布式的nagios监控服务器和超过70个受监控的主机。每台主机都通过nrpe addon进行监控，每台主机都有完全相同的软件/硬件configuration。 Nrpe在Centos 5.4上作为xinetd服务运行。Nrpe版本是：2.12（服务器和受监控主机）Nagios插件是：1.4.14

所有nrpe检查都以5分钟为间隔

很less有最后input的主机偶尔会显示“服务检查超时”与受监控的nrpe服务。

那么到目前为止我做了什么：

我已经写了一些额外的包装脚本围绕这些服务来尝试find错误来源，试图在nagios服务器和nrpe服务器上进行debugging。

从下面的debugging中肯定有效：

主机之间的networking连接在两台主机/服务器上都打开Nrpe端口没有任何networking超时

Nrpe检查被正确调用，并且插件工作正常我甚至写了一个logging器脚本，它们在插件执行开始时loggingdate和时间，并且在调用槽nrpe时也是插件输出。执行永远不会超过2秒

nrpe.conf被设置为等待命令输出60秒，监视服务器上的Nrpe插件被设置为等待至less30秒的输出（即使它将完全不同的错误）。

无论如何，这导致我得出结论，监测主机上的nrpe守护进程有问题。即使插件返回检查数据nrpe一些如何不明白。

我甚至删除了运行nrpe守护进程的nagios用户的所有shell ulimits，以消除这种情况，但没有帮助。

无论如何，任何帮助，非常感谢。

好吧，我终于搞定了。

问题是两个nagios服务器都在执行服务检查并向主节点报告结果，并且所有这些检查都是完美的。主节点进行了服务新鲜度检查，因此如果监视服务器无法完成检查，主服务器会自行安排这些检查。

无论如何，新的服务器是在新的IP范围，默认情况下，主服务器上closuresnrpe端口。

开放港口解决了问题。虽然它返回“服务检查超时”而不是“套接字超时错误”仍然是奇怪的。