Articles of Nagios

Nagios / NSCA:命令文件'/var/nagios/rw/nagios.cmd'不存在

我在Centos上安装了nagios,我也想在主机上启用NSCA 。 客户端已经configuration并正在发送数据(我可以看到它,当我尾巴的日志)。 不过,我在NSCA日志中看到以下错误消息 Command file '/var/nagios/rw/nagios.cmd' does not exist, attempting to use alternate dump file '/var/nagios/rw/nsca.dump' for output 我浏览到/var/ ,没有“ nagios ”文件夹。 所以我创造了一个。 我也创build了一个/ rw /文件夹。 我重新启动了nagios,但没有创buildnagios.cmd 。 我做了一个chown和chgrp在这些文件夹上,但没有帮助。 首先,安装过程中/var/nagios/rw/从未创build过? 有人可以想出一种方法使这项工作,所以nagios创buildnagios.cmd文件(NSCA正在寻找它来input数据)? 谢谢

Nagios用户能够运行检查,但运行su – nagios-c时失败?

原谅我,如果这是已经回答的地方 – 我发现很多类似的问题,但似乎没有解决我的问题。 我只是testing一些Windows服务器在nagios中的正常运行时间,如果超过了某个值,我希望提醒一下。 它昨天在工作,而且在某个时候我似乎已经破坏了一些东西,但是不能确切地确定是什么错误。 首先,作为根,testing工作: ./libexec/check_uptime.sh xxxx 28 30 1449919 OK. Uptime 16 Days. 作为nagios,通过su – nagiostesting工程: su – nagios -bash-3.2$ pwd /usr/local/nagios -bash-3.2$ ./libexec/check_uptime.sh xx.xx.xx.xx 28 30 1449969 OK. Uptime 16 Days. 但是我相信“正确的”testing方法是通过su – nagios – c? su – nagios -c "./libexec/check_uptime.sh 10.36.128.22 28 30" 1450084 OK. Uptime 16 Days. 但是该命令仍然在网页/守护进程中失败 Uptime UNKNOWN […]

在一封电子邮件中分组几个Nagios通知

我有一套被动检查,我每周更新一次。 我想设置电子邮件通知。 我希望发送一封电子邮件。 该电子邮件将包含所有错误服务的列表。 有没有可能在Nagios中configuration? 谢谢!

把parameter passing给nrpe

远程主机nrpe.conf command[check_users]=/usr/lib64/nagios/plugins/check_users -w $ARG1$ -c $ARG2$ 监测主机: define command{ command_name check_nrpe command_line /usr/lib64/nagios/plugins/check_nrpe -H $HOSTADDRESS$ -c $ARG1$ -a $ARG2$ } define service{ use local-service ; Name of service template to use hostgroup_name linux-servers service_description Current Users check_command check_nrpe!check_users!15!20 } 我得到这个configuration的使用错误,请帮助

如何计算没有。 被动检查使用nsca发送?

我有Nagios / NSCA安装程序运行在nagioshost上的perl自定义脚本。 我有它configuration像: echo "myhost;myservice;1;Message"|/usr/local/nagios/libexec/send_nsca -to 10 -d ';' -c /etc/send_nsca.cfg -H localhost 它的工作完美无瑕.. 所以我的查询,有没有办法在Nagios或NSCA来计算被动检查? 即Nagios在myhost上收到myservice的警报 注意:自定义脚本永远不会为服务发送“OK”

Nagios / Icinga不报告RAID中的问题 – 使用check_raid

我正在多台机器上运行check_raid脚本,而我今天才注意到,其中一台机器处于降级状态,但没有收到警报。 脚本正在返回“关键”,但Icinga认为这是好的。 这是我在Icinga机器上看到的(我已经更换了磁盘): SNMP OK – "CRITICAL: tw_cli:[c3(9650SE-4LPML): u0(RAID-10): REBUILDING 65%, Cache:Ri, Drives(4): p2=DEGRADED p0,p1,p3=OK]" 这台机器的configuration非常简单: define service{ use generic-service host_name test service_description RAID Status check_command check_raid } 这是命令定义: define command{ command_name check_raid command_line /usr/lib/nagios/plugins/check_snmp -H $HOSTADDRESS$ -o ucdavis.80.3.1.1.13.47.117.115.114.47.98.105.110.47.112.101.114.108 -C public -r "OK" 在被检查的机器上,我在snmpd.conf中有以下内容: extend .1.3.6.1.4.1.2021.80 /usr/bin/perl /usr/local/bin/check_raid.pl 我正在使用脚本的最新版本,任何人有任何想法我做错了什么? -r“OK”总是返回OK?

在Nagios中,我怎么能有一个联系人,每次失败都只能得到一个通知?

我有我认为是常见的Nagios设置:当主机或服务出现问题时,它会向应召人员发送电子邮件,然后每小时继续发送电子邮件,直到问题得到确认或自行消失。 我现在想把问题(和解决scheme等)input到日志系统中,我不想看到每小时“服务仍然中断”的消息。 我只想看到最初的“服务已经坏了”,接下来可能是“问题得到了承认”,最后是“服务还行”。 (具体来说,我正在login到Slack频道,但我不认为这个细节会对解决scheme产生影响。) 有没有简单的方法来build立一个“日志”的联系人,会得到第一个服务或主机故障的通知,但不是重复的? 一个理论上可行的方法是通过升级。 以下是服务通知的示例: define serviceescalation { host_name * service_description * contacts slack first_notification 1 last_notification 1 escalation_options w,c,u } define serviceescalation { host_name * service_description * contacts slack first_notification 1 last_notification 0 escalation_options r } 不幸的是,这只能得到警告,关键,未知和恢复通知。 我还想logging扑灭和停机通知,而这些通知似乎根本不通过升级系统。

Nagios插件不能从服务器,但本地工作

我已经写了一个小的bash脚本来检查docker服务是否正常运行,当我在客户端上进行testing的时候是非常好的,但是不知道从nagios服务器上运行check_nrpe来执行我的脚本,它总是显示脚本的一部分。 我的nrpe.cfg也是正确的。 这是脚本: #!/bin/bash CONTAINER=ubuntu_container RUNNING=$(docker inspect –format="{{ .State.Running }}" $CONTAINER 2> /dev/null) if [ "$RUNNING" == "true" ]; then echo "OK – $CONTAINER is running." exit 0 else echo "CRITICAL – $CONTAINER is not running." exit 2 fi 从nagios服务器输出: root@nag_server nagios]# /usr/lib64/nagios/plugins/check_nrpe -t 30 -H docker-host.intenallab -c docker_container CRITICAL – ubuntu_container is not running. […]

无法使用nrpe检查获取KVM的虚拟机列表

我使用下面的命令在KVM虚拟化主机中创build了检查,以获得KVMpipe理程序中可用虚拟机的列表。 $ cat /usr/local/nagios/libexec/check_kvm #!/bin/sh val=`virsh list –all | sed '1,2d' | sed '/^$/d'| awk '{print $2":"$3}'` echo "VM List is" – $val exit 0 在本地执行脚本如下获取数据。 # sh /usr/local/nagios/libexec/check_kvm VM List is – oy06b:running ……. 当使用nrpe从nagios服务器获取数据时,我无法获得VM列表。 我得到如下“虚拟机列表是”和$ val不显示。 /usr/local/nagios/libexec/check_nrpe -H <Host IP> -c check_kvm VM List is – 请指教….

check_mk_agent在networking触发时仅在运行集群检查时挂起

我的check_mk服务器连接到几个安装了check_mk_agent (版本1.2.4p3)的RHEL节点。 一组这些节点属于起搏器组。 check_mk代理是默认configuration的 – 一个xinet服务被configuration绑定到端口6556 / TCP: service check_mk { type = UNLISTED port = 6556 socket_type = stream protocol = tcp wait = no user = root server = /usr/bin/check_mk_agent # If you use fully redundant monitoring and poll the client # from more then one monitoring servers in parallel you might # […]