Articles of Nagios

将Ganglia和Nagios用于一台服务器是否过分矫枉过正?

在我家里,我运行一台Plex / Data服务器。 它基本上只是服务于每个人的文件,然后Plex播放电影等。 Teamspeak服务器也运行在这个服务器上,但除了这些任务外,没有什么比这个更重要。 我最近看到一些networking滞后,并且让我想要玩一些监控解决scheme。 我有一个额外的机架式服务器,我在这里从IT实习中find,我想我终于find了一个解决scheme,但是看起来Nagios和Ganglia似乎要比这个更大的解决scheme。 这是否会因为任何原因不build议这样做? 还是只是为了更大的networking而打算,但在家玩还是完全可以的吗?

包括check_command与nagios /冰雹警报

有没有一种方法可以包含通过Nagios或Icinga发出警报时正在使用的check_command。 例: define command {command_name check-x-dc6.x-icmp command_line $ USER1 $ / check_ping -H IP -w 100.0,20%-c 500.0,60%} 基本上,我要找的是这个命令的command_line被包含在nagios / icinga的警报系统中吗?

脚本来validation/ monitior HTTPcaching头

我们想validation我们所有的网站使用正确的HTTPcaching头。 是否有一个脚本在那里向网站发出请求,检查它的响应头并报告它是否会被正确caching? 如果脚本与Nagios或Icinga兼容,奖励点数。

Nagios发送通知,即使它不应该

我有一堆非服务器设备,我想跟踪停机时间,因此我将它们集成到了我的Nagios集合中(以便生成可用性报告)。 但是,如果邮件无法访问,我不希望通过电子邮件收到警报。 因此,这些机器的条目如下所示: define host{ host_name Moni_MacBook_Pro address 10.10.10.27 use generic-host notifications_enabled 0 } 不过,我仍然收到通知! 我怀疑这与模板“遗传宿主”包含以下内容有关: check_command check-host-alive 反过来,“通用服务”模板如下所示: define service{ name generic-service ; The 'name' of this service template active_checks_enabled 1 ; Active service checks are enabled passive_checks_enabled 1 ; Passive service checks are enabled/accepted parallelize_check 1 ; obsess_over_service 1 ; We should obsess […]

来自nagios / SNMP的超时错误

正在使用check_snmp_process.pl通过VPN监控〜100个远程主机。 多less个月来,这工作得很好。 在这个周末我开始看到几乎每个主机/进程都出现错误:报警信号(Nagios超时)错误。 我可以在命令行上使用该命令,并获得成功的响应,所以我不清楚为什么它会在正常使用情况下超时。 今天早上我试着把插件上的“超时”参数设置为20秒。 大概一个小时,这似乎工作,然后在几分钟内失败率恢复到以前的水平。 VPN服务器似乎没有任何exception负载。 nagios机器也不是。 build议在哪里寻找这个来源? Nagios机器:CentOS 6.5 Nagios版本:3.5.1 插件版本:1.10 编辑:当“大量超时”发生在几秒钟内。 每台主机在报告上显示相同的时间(±5秒)。 这可能是由于nagios强制重新启动服务时重新检查“孤立进程”。 尚未确定。 看起来不祥时,40-50超时一次击中日志。

Nagios check_http为HAProxy的站点提供“HTTP / 1.0 503 Service Unavailable”

我在stackoverflow上询问了这个,但是我认为它更适合这里。 无法弄清楚这一个! 操作系统:CentOS 6.6(最新) 当使用我的nagios check_http检查(或curl)查询通过HAProxy 1.5服务的SSL站点时,我得到以下503错误。 [root@nagios ~]# /usr/local/nagios/libexec/check_http -v -H example.com -S1 GET / HTTP/1.1 User-Agent: check_http/v2.0 (nagios-plugins 2.0) Connection: close Host: example.com https://example.com:443/ is 212 characters STATUS: HTTP/1.0 503 Service Unavailable **** HEADER **** Cache-Control: no-cache Connection: close Content-Type: text/html **** CONTENT **** <html><body><h1>503 Service Unavailable</h1> No server is available to handle […]

尝试自动注册一个Nagios NSCA客户端

我正在使用NSCA设置Nagios监视,以便从受监视的主机上报告,并且所有监视都使用被动检查。 目前,受监视的主机在定义其地址,主机组等的nagios等文件夹中都有一个configuration文件。 为了简化添加新主机和启动dynamic环境的能力, 我试图想出一种方法来自动注册新的受监控主机。 我们的nagios环境是全新的,所以我们接受各种方法。 我们的环境也有GitHub企业和Puppet,我有一种感觉可以用在解决scheme中,我们希望利用。 这些服务器在AWS中托pipe。 我们只使用Nagios Core,而不是Nagios XI。

nagios检查在nagios主机上失败,但在本地工作

我写了一个小的bash脚本来和nagios一起使用来检查nrpe是否在运行。 以root身份运行时检查在本地运行,但在监视主机上运行失败。 从我试图监视的主机,我在我的nrpe.conf中有这行: command[check_nrpe]=/usr/lib64/nagios/plugins/check_nrpe.sh 并确保检查脚本是由nagios用户拥有的: [root@ops:~] #ls -l /usr/lib64/nagios/plugins/check_nrpe.sh -rwxr-xr-x. 1 **nagios nagios** 203 Jun 9 20:29 **/usr/lib64/nagios/plugins/check_nrpe.sh** 如果我以root用户身份运行脚本,我会得到正确的结果: [root@ops:~] #/usr/lib64/nagios/plugins/check_nrpe.sh OK: NRPE is running with pid: 24538 24538 但是当我从nagios主机运行它时,检查产生相反的结果: [root@monitor1:~] #/usr/local/nagios/libexec/check_nrpe -H ops.mydomain.com -c check_nrpe **CRITICAL: NRPE is **NOT** Running** 如果我回到主机,我试图监视并成为nagios用户,我得到的结果与我在nagios主机上的结果是一样的。 [root@ops:~] #su – nagios Last login: Tue Jun 9 20:43:42 UTC 2015 on […]

UNKNOWN:没有该命令的处理程序

我将check_task.vbs放置在Windows Server 2008 R2上的C:\ nsclient ++ \ scripts中。 我在NSC.ini中定义了一个这样的NRPE处理程序: [NRPE Handlers] check_task=cscript.exe //NoLogo scripts\check_task.vbs $ARG1$ $ARG2$ 在commands.cfg中,命令是这样定义的: define command{ command_name check_task command line $USER1$/check_nrpe -H $HOSTADRESS$ -c check_task -a $ARG1$ $ARG2$ } 当我在/ usr / local / nagios / libexec中运行以下代码时,它以“UNKNOWN:No handler for the command” ./check_nrpe -h Server01 -c check_task 我错过了什么?

使用Nagios远程监控ISC DHCP服务器

我有一个广域网,我试图用Nagios来检查一个子网中的DHCP服务器不能直接看到Nagios框,并且发出IP地址,我一直无法做到这一点。 我有3个地方我可以监视DHCP,但似乎没有工作。 理想的做法是让Nagios直接监控DHCP,如果不成功,我希望将SSH服务器ssh发送到DHCP服务器,然后从该服务器中进行检查,否则将通过DHCP服务器上的接口从核心路由器检查其工作。 DHCP服务器专门用于dynamic分配静态IP地址给服务器。 DHCP服务器位于192.168.254.1,正在运行ISC DHCPD。 我的dhcpd.conf文件(当前)如下所示: # Long Lease times – 1 month, 1 year ! default-lease-time 2678400; max-lease-time 31622400; authorative; subnet 192.168.224.0 netmask 255.255.224.0 { range 192.168.225.1 192.168.225.2; option domain-name-servers 192.168.200.254, 192.168.100.254, 8.8.8.8; option routers 192.168.254.254; range 192.168.253.0 192.168.253.0; host web.mydomain.co.nz { hardware ethernet 52:54:00:F3:80:32; fixed-address 192.168.242.2; } host nagiostest.mydomain.co.nz { hardware ethernet […]