Articles of Nagios

nagios.service启动操作超时。 终止

我有一个CentOS 7盒,我已经安装了Nagios,然后从旧的Centos盒子迁移所有的configuration文件。 一切看起来不错, nagios -v不会返回任何错误。 但是,systemd无法启动服务,并给我一个超时。 查找下面的systemctl -l status nagios.service的结果: ● nagios.service – Nagios Network Monitoring Loaded: loaded (/usr/lib/systemd/system/nagios.service; disabled; vendor preset: disabled) Active: failed (Result: timeout) since Fri 2016-02-05 10:52:55 CET; 13min ago Docs: https://www.nagios.org/documentation/ Process: 2259 ExecStart=/usr/sbin/nagios -d /etc/nagios/nagios.cfg (code=exited, status=0/SUCCESS) Process: 2257 ExecStartPre=/usr/sbin/nagios -v /etc/nagios/nagios.cfg (code=exited, status=0/SUCCESS) Feb 05 10:52:52 nagios.adflux.net nagios[2261]: […]

将nagios服务确认写入系统文件

我大量使用nagios来监视许多服务器和服务,并且每天都依靠它。 截至目前,所有服务都被写入系统日志(目前是CentOS 6.9),系统pipe理员会在服务失败时得到通知。 但是,已经被确认的服务仍然写入系统日志,所以我不断地收到我已经确认的服务的通知。 有没有办法将ACKNOWLEDGED添加到日志条目,以便我可以通过logcheck过滤掉它们? 以下是当前日志条目的示例: Aug 16 00:00:00 nagios [4711]:CURRENT SERVICE STATE:; Apache Servers; CRITICAL; HARD; 4; CRITICAL – 套接字超时 而我想要完成的是: Aug 16 00:00:00 nagios [4711]:当前服务状态:确认; Apache服务器; CRITICAL; HARD; 4; CRITICAL – 套接字超时 或类似的东西。 我也将这张贴到Nagios论坛,所以请忽略任何交叉post。

我如何开始使用Nagios?

我一直在想着现在开始使用监视软件,但从来没有好好开始。 我听说Nagios是一个相当不错的开源解决scheme,但是从来没有能够正确地开始使用它。 有没有人有一些好办法来启动服务器监控的任何提示? 我正在考虑networking连接的数量,平均负载,可能是服务器使用的带宽等。涉及到的基本知识(可能包括我不知道的基础知识)。

如何使用autofs的Nagios check_disk插件?

我一直使用check_disk没有问题,直到昨天检查一些分区的可用空间。 现在我们刚刚在主机上添加了一个NAS服务,我可以毫无问题地安装它,而且由于我们有一个固定的空间,所以我想检查一下Nagios的可用空间是不是过度充电。 问题是,有时check_disk去检查,然后我得到“未知”的状态,因为当然autofs不保持分区100%的时间安装。 (Nagios的用户)check_disk和autofsbuild议为插件做一个包装,但我不觉得舒服。 任何关于更好的解决scheme的想法 编辑: 那么,我find了一个解决scheme: 我编译并安装了check_file插件。 在NAS根目录下创build一个文件: .nagioscheck 。 configurationNagios经常检查这个文件是否存在,而不是检查空间。 所以我可以检查一下NAS是否已经安装好了,还有空余的空间。 SERVICE STATUS:OK文件或目录/mnt/backup/.nagioscheck存在

Snmpconfiguration给我超时,没有反应

这绝对不是防火墙问题,因为在src和tgt之间没有防火墙。 我只是简单地设置snmp来被一个nagios服务器查询。 我的snmpd.conf如下所示(我在Ubuntu 9.10上使用net-snmp): com2sec nagiossrv 10.10.10.10 public group Nagios v1 nagiossrv view all included .1 access Nagios any noauth exact all none none 当我尝试走路时: t:/ etc / nagios3#snmpwalk -v1 -c public 10.10.10.10系统超时:10.10.10.10 任何想法,我错了我的configuration?

基于Windows的机器进行类似NRPE的检查

我很抱歉不能提出一个更具描述性的问题标题。 为了获得远程指标,我在基于Linux的机器上使用nrpe,在基于Windows的机器上使用nsclient ++ 。 例如,如果我需要检查某个服务器是否可以从另一个服务器访问,那么我只需使用nrpe运行一个合适的插件(如check_http)。 我最近面临需要做同样的事情,但远程服务器正在运行Windows,所以我坚持使用nsclient ++。 现在,您可以从nsclient ++运行脚本,因此您可以编写一个vb / powershell脚本,这样做。 然而,在我这样做之前,我想知道是否有任何现有的解决scheme(当然,我不是地球上唯一必须面对这个问题的人)。 至less我想有一些东西,比如check_http,我可以使用nsclient ++来运行。

Nagiosterminal服务检查?

我们的大部分服务器都有两个并发的远程桌面会话许可。 这很好,只要每个人都做他们的pipe理任务并注销,但有些人不小心closures会话(断开连接,但保持login状态)。 我知道你可以使用正确的pipe理工具强制别人,但这有点丑,可能会影响工作效率甚至服务器(?)。 我在想,每晚的Nagios远程会话检查可以唠叨人们,这将有助于加强对这个问题的build立纪律。 任何人都可以推荐可以监控terminal服务可用性的服务检查吗?

check_snmp具有负值的警告和临界阈值

我正在查询以dBm为单位测量的一些信号电平值,移除设备上的SNMP主机将这些值报告为负值,即-90 dBm。 但是,check-snmp似乎无法将负数作为其阈值的一部分来处理。 如果我将这些值指定为OID集合的一部分,它将接受语法,但会将snmp值转换为正值,因此始终会生成WARNING / CRITICAL结果: root@ops-00:/usr/local/nagios/libexec# ./check_snmp -H 192.168.1.100 -o DEVICE-MIB::AverageReceiveSNR.0,DEVICE-MIB::CurrentNoiseFloor.0 -w 10:,~:-85 -c 15:,~:-80 -vvvv /usr/bin/snmpget -t 1 -r 5 -m ALL -v 1 [authpriv] 192.168.1.100:161 DEVICE-MIB::AverageReceiveSNR.0 DEVICE-MIB::CurrentNoiseFloor.0 DEVICE-MIB::AverageReceiveSNR.0 = INTEGER: 25 DEVICE-MIB::CurrentNoiseFloor.0 = INTEGER: -97 Processing line 1 oidname: DEVICE-MIB::AverageReceiveSNR.0 response: = INTEGER: 25 Processing line 2 oidname: DEVICE-MIB::CurrentNoiseFloor.0 response: = INTEGER: […]

推荐的Nagios插件?

根据Nagios插件registry和Google,有几个Nagios JMX插件。 任何build议在一个JMX Nagios服务检查其他人? 我寥寥几瞥一眼,似乎没有得到积极的维护。

在Linux上识别Nagios“进程数量”的原因警告

我刚刚开始从我们的构build服务器得到一个Nagios警告,指出进程的数量超过了限制。 看看我们的穆宁图,我可以看到,stream程数量从12月份的280个稳步增加到现在的430个。 我想知道如何才能确定进程数量增加的原因,以便我可以根据需要重新启动服务或调整其configuration。 服务器细节:CentOS 5.1,主要运行的是我们在Tomcat下运行的Hudson构build服务器,以及一个主要是Hudson代理的Apache httpd服务器。 我已经尝试重新启动httpd和Tomcat,但进程的数量保持不变。 “top”表示只有其中一个进程处于活动状态; 其余的都在睡觉。