我有一个工作Nagios解决scheme约4年。 在将Nagios 3.5.x更新到4.0.8版本后,我注意到有一段时间,一个人没有收到任何错误通知。 我们的公司使用的服务器或交换服务器上的邮件configuration没有任何变化。 我们的Nagiosconfiguration文件也没有改变。 有关文件必须是contacts.cfg我有一个contacts.cfg组configuration像这样: define contactgroup{ contactgroup_name admins alias Nagios Administrators members Admin1,Admin2 } 奇怪的是,“Admin2”没有得到任何邮件通知,如果我颠倒我的用户的顺序是这样的: define contactgroup{ contactgroup_name admins alias Nagios Administrators members Admin2,Admin1 } 这是Admin1谁没有任何通知。 根据官方的更新日志,Nagios 3.5和4.0之间没有任何关系。 有什么办法可以让Nagios通知联系人组中的所有用户?
我花了一天在nagios上设置自定义的twitter通知。 一切似乎都已经到位,通知似乎被触发,但脚本不被调用。 我的通讯录configuration如下所示: define contactgroup{ contactgroup_name twittergroup alias twittergroup members user1 } define contact { contact_name user1 alias user1 service_notification_period 24×7 host_notification_period 24×7 service_notification_options c,r host_notification_options d,r service_notification_commands streamnotify-service-twitter-dm host_notification_commands streamnotify-host-twitter-dm } 一个典型的服务看起来像这样: define service{ use generic-service host_name ra-stream-monitoring-host servicegroups streaming_services service_description Stream / starrfm-redfm ingest stream check_command check_http_status!"http://somestream" contact_groups admins,twittergroup } 我的commands.cfg有这些条目: define command […]
我第一次安装了nagios核心和插件,并且无法与SElinux一起使用。 审计日志中的错误是, type=AVC msg=audit(1441480084.865:710): avc: denied { execute } for pid=5444 comm="httpd" name="statusjson.cgi" dev="dm-1" ino=135240040 scontext=system_u:system_r:httpd_t:s0 tcontext=unconfined_u:object_r:httpd_sys_content_t:s0 tclass=file 系统: Scientific Linux 7 Nagios: 4.1.1 我按照这里的指示 它适用于SElinux处于宽容模式( setenforce 0 ) (对于想要弄清错误日志的人来说,SELinux策略默认情况下似乎没有审计httpd exec消息,我重build了SELinux策略,根据这篇文章启用所有的审计消息 #semodule –disable_dontaudit –build 并看着日志使用 #sealert -a /var/log/audit/audit.log > auditlog.log 另外,按照sealert的build议不适合我 )
我刚刚完成了一个Nagios 4.1.1的小安装。 它使用Raspbian在Raspberry Pi上运行。 检查出好的,当我用/etc/init.d/nagios start手动/etc/init.d/nagios start它时,它工作正常。 我总是告诉我的debian系统通过这样做来启动系统启动: ln -s /etc/init.d/nagios /etc/rcS.d/S99nagios我可以看到符号链接已经成功创build。 但是,启动时不会启动。 系统启动后,我可以运行启动脚本,通过执行/etc/rcS.d/S99nagios start所以我知道(/认为)符号链接是好的。 当服务器启动时,Apache正在运行,并且Nagios页面已启动,但主页显示“无法获得进程状态”,这是在nagios服务未运行时预期的。 有没有办法查看启动日志,看看是否正在尝试,还是有更好的方法来启动它启动? 更新:我运行update-rc.d ,它给了我这个: update-rc.d: using dependency based boot sequencing update-rc.d: warning: default start runlevel arguments (2 3 4 5) do not match resize2fs_once Default-Start values (2 3 4 5 S) update-rc.d: warning: default stop runlevel arguments (0 1 6) […]
我有一个问题,哪个好的解决scheme(软件/硬件)已经在企业中开发并应用于在线故障预测? Zabbix,Openstb,仙人掌和类似的替代品? 你能列出更多吗? 你能描述他们有什么优点和缺点,特别是在故障预测方面? 我想知道它们的缺点,并通过模型\algorithm进行一些改进。 如果您对在线故障预测的概念不太了解,请参考以下说明。 如果你已经知道了,就跳过它。 Online failure prediction — It is an approach to evaluate whether an incoming failure will occur in the near future, and when the failure will occur, and in which component (maybe software or hardware) the failure will occur. It's a short-term prediction by tracking failure, detected error reporting, […]
我需要使用nagios事件处理程序来重新启动ntp服务。 我重新启动脚本 1: cat /usr/lib64/nagios/plugins/remote-restart #!/bin/bash echo "ok" /etc/init.d/ntpd restart echo "done" 2:用于nrpe.cfg远程入口 command[check_remote_restart]=/usr/lib64/nagios/plugins/remote-restart 3:从服务器运行nagios命令 /usr/lib64/nagios/plugins/check_nrpe -H $HOSTNAME -p 5666 -c check_remote_restart 输出: ok done 我得到的输出在回声,但仍然ntp服务没有启动。 有人能帮我find灵魂吗?
我已经运行了一个新的nagios(服务器3.5.1)系统。 所有的检查工作正常 [1461932408] SERVICE NOTIFICATION: nagiosadmin;appserver;Swapfile;CRITICAL;notify-service-by-email;CHECK_NRPE: Socket timeout after 10 seconds. [1461932418] SERVICE NOTIFICATION: nagiosadmin;adminserver;Disk;CRITICAL;notify-service-by-email;CHECK_NRPE: Socket timeout after 10 seconds. 我无法使用邮件,因为邮件服务器是交换服务器。 所以我改变了以下命令: # 'notify-host-by-email' command definition define command { command_name notify-host-by-email command_line /usr/bin/printf "%b" "Notification Type: $NOTIFICATIONTYPE$\nHost: $HOSTNAME$\nState: $HOSTSTATE$\nAddress: $HOSTADDRESS$\nInfo: $HOSTOUTPUT$\n\nDate/Time: $LONGDATETIME$\n" | /usr/local/bin/mailsend.rb "***** Nagios Alert*****" } # 'notify-service-by-email' command definition define command { […]
我在nagios上看到了这一点,并在我目前的icinga安装。 我打开了皮瓣检测。 我的联系人定义设置为: service_notification_options w,u,c,r,f host_notification_options d,u,r,f,s 当一个服务开始扑动,networking界面说通知被扑灭扑灭。 我没有收到通知说服务正在扑动。 但是我想要那个通知 – 因为否则,我根本就没有收到任何有关主机/服务的通知。 我configuration错误吗?
禁用ping请求的Nagios3和Ubuntu 14。 本地主机持续在GUI Nagios界面中报告它已closures。 这是安装后在conf.d目录中find的默认“localhost_nagios2.cfg”: # A simple configuration file for monitoring the local host # This can serve as an example for configuring other servers; # Custom services specific to this host are added here, but services # defined in nagios2-common_services.cfg may also apply. # define host{ use generic-host ; Name of host template […]
我在Ubuntu上有一个监视许多其他Ubuntu服务器的nagios服务器。 他们已经configuration了厨师,他们正在正确地监控NRPE的事情(即NRPE检查工作,当事情中断时,我得到一个警报)。 一切安好。 除了我监控的主机上的syslog有很多这样的错误信息: Jul 20 15:07:10 HOSTNAME nrpe[26360]: Error: Could not complete SSL handshake. 5 每5分钟左右,系统日志将会得到另一个这样的消息。 没有失败的testing。 我有大约20个受监视的主机,他们在系统日志里都有类似的东西。 更新: nagios服务器的IP地址在allowed_hosts列出,并且已经很长时间了。 我怎样才能阻止这个消息从打印到系统日志?