我是纳吉奥斯新手,我们有一个小问题,我需要帮助。 我们监控的许多机器在运行一些非常密集的cpu任务时可能会反应迟钝。 这使得nagios在这些主机忙于报告“ping超时”或“僵尸进程”甚至交换空间警告等事件时发送警告和警报,但实际上并没有问题。
有没有办法configurationnagios不发送这样的警报,但在一段时间内检查x次,只有在该时间结束时发送警报,如果有问题的服务器还没有恢复?
看看commands.cfg文件,我看到这样的条目:
define command{ command_name check_local_swap command_line $USER1$/check_swap -w $ARG1$ -c $ARG2$ }
我怎么能修改这个例子来完成上面我想要的。
谢谢
首先,您可以通过调整check_command指令来更改相关检查的参数:
例如:
check_command check_nrpe!check_zombie_procs!1 5
如果你想忍受更多的僵尸进程,只需增加数字。
一旦将阈值调整为您的喜好,您可以通过增加max_check_attempts来进一步修剪虚假警报。
例如:
max_check_attempts 3
这允许主机/服务在进行两次进一步检查之前进入“软”非正常状态; 你会在第三个提醒。
另请参阅: Nagios状态types , Nagios对象定义
我想你可能在谈论“扑动”问题。
查看关于处理在Nagios下震荡的页面: