没有做任何修改nagios3configuration或操作系统(debian)文件系统的变化,当我添加一些额外的设备(到12000 +已经)突然
[1508925621] Warning: Return code of 127 for check of service 'PING' on host 'SOME-HOST.CISCO' was out of bounds. Make sure the plugin you're trying to run actually exists. [1508925621] SERVICE ALERT: SOME-HOST.CISCO;PING;CRITICAL;HARD;3;(Return code of 127 is out of bounds - plugin may be missing)
所有的二进制文件都是可读/可执行的,自设置以来没有任何改变。
这种情况发生在所有这种types的主机上,牢记这是一个多年来一直工作的设置,我能想到的唯一的事情就是在运行检查时触发某种操作系统的限制,因为这是唯一的变化,更多的主机。 我有很长一段时间max_concurrent_checks=1500 。 (它是一个16核心的24GB RAM物理服务器)
除了我运行的并发检查
check_result_reaper_frequency=25 max_check_result_reaper_time=20
大量的主机configuration如下:
define host{ use generic-cisco host_name SOME_HOST.CISCO alias SOME_HOST.CISCO address xxx.xxx.xxx.xxx check_command check-host-alive hostgroups cisco_devices } define service{ use generic-service host_name SOME_HOST.CISCO service_description PING check_command check_ping!200.0,20%!600.0,60% normal_check_interval 10 retry_check_interval 5 }
把它返回到工作状态的唯一方法就是把我添加的一些更新的主机卸载掉,然后停止并开始,希望它能正常运行。 有什么build议么?
虽然我有很多其他的性能build议,但我没有禁用enable_environment_macros现在的performance并不影响性能。 显然问题是操作系统正在努力使这些环境variables在这个数量的主机可用。通过这里find
我喜欢一个很好的nagios facepalm。