我们已经在我们的服务器上运行了一段时间的Nagios,但是最近我们得到了(返回码141超出了范围)。 服务器上的负载上升,因为我们与我们的服务上线,但它仍然不是很高(平均负载最高0.7)。 在启动之前,Nagios中的所有工作都正常。 看到图像,当前负载返回代码141. 2分钟前,Beancounters VZ已经返回141.这种情况不规则。 只有HTTP&PING不返回141,它们不会在nrpe上中继。 http://pic-hoster.net/view/45030/ScreenShot2012-05-28at5.31.35PM.png 我注意到,如果我从我的Nagios主机对有问题的客户端执行命令,有时返回会丢失: root@xxx23:/usr/local/nagios/libexec# ./check_nrpe -H 123.123.123.123 -c check_apt APT OK: 0 packages available for upgrade (0 critical updates). root@xxx23:/usr/local/nagios/libexec# ./check_nrpe -H 123.123.123.123 -c check_apt root@xxx23:/usr/local/nagios/libexec# ./check_nrpe -H 123.123.123.123 -c check_apt APT OK: 0 packages available for upgrade (0 critical updates). 这不会发生,如果我直接在客户端上执行它。 我做了什么: 我增加了这个容器的OpenVZ内存和CPUUnit。 我更新到最新的Nagios 3.4.1(来自源代码) 我通过nrpe执行了Nagios的locals检查 – 从来没有得到141回或什么 […]
我需要监视几十台主机上的开放和closures端口。 我find了一个我需要的Nagios插件,但是我必须通过NRPE来使用这个脚本。 一些主机由Linux驱动,并且都安装了Perl。 但是其中一些是Windows机器,在我们每个人身上安装Perl都不方便。 这就是为什么我不能使用这个插件。 我希望有Nagios插件使用Nmap或类似的东西,因此它可以远程检查每个主机上的端口,而不需要在远程主机上安装插件,只能在服务器上安装插件。
如何在Nagios web界面(如_mac_address显示自定义主机variables?
我写了我自己的perl脚本来从我的服务器返回状态。 它运行得很好(即性能数据:val1 = 1; val2 = 5; val3 = 10)。 使用templates.dist / default.php这给了我3张图(如我所料)。 现在我遇到的这个问题是,我想多做一个图表,其中包含所有3个值。 我一直在摆弄模板文件,但我得到的结果似乎非常随意和混乱。 <?php for($i=1; $i < count($DS); $i++) { $opt[$i] = '–title "My Graph '.$i.'"'; $def[$i] = 'DEF:var1='.$rrdfile.':'.$DS[$i].':AVERAGE LINE1:var1#000000'; } $opt[4] = '–title "My Graph 4"'; $def[4] = 'DEF:var1='.$rddfile.':'.$DS[1].':AVERAGE '. 'DEF:var2='.$rddfile.':'.$DS[2].':AVERAGE '. 'DEF:var3='.$rddfile.':'.$DS[3].':AVERAGE '. 'LINE1:var1#FF0000:"Var 1" '. 'LINE1:var2#FF0000:"Var 2" '. 'LINE1:var3#FF0000:"Var 3"'; […]
我很难在Nagios中find通配符和正则expression式的良好文档(特别是在排除条件下)。 这是我正在尝试做的一个例子: 在nagios.cfg ,设置了以下内容,据说可以启用*和? 作为通配符: use_regexp_matching=1 use_true_regexp_matching=0 在services.cfg ,我们有一个服务,我们想要适用于除了一些对象之外的所有对象; 那就是所有的Linux主机,而不是负载均衡器。 显式排除工作: define service { use generic-service service_description Puppet check hostgroup_name prod, staging, !prod-site_a-lbs check_command check_puppet_alive_nrpe } 但是,我们有许多站点,每个站点都有自己的主机组中的负载均衡器(因此可以通过站点轻松pipe理通知)。 而不是有一个很长的列表!prod-site_a-lbs , !staging-site_a-lbs , !prod-site_b-lbs 。 我希望能够将hostgroup_name行修改为: hostgroup_name prod, staging, !*-lbs 我已经尝试过了,尽pipe我们没有收到任何错误,但是此服务检查仍在应用于我们的负载平衡器。 为了仔细检查,我也尝试过: hostgroup_name prod, staging, !.*-lbs 但是,如预期的那样(因为没有设置use_true_regexp_matching ),这会失败,在运行checkconfig-noprecache : Error: Could not find any hostgroup matching '!.*lbs' […]
我目前正在使用nagios进行监控,包括使用check_http选项来检查即将到期的SSL证书等。我想要做的是包括对我监控的每个站点的撤销证书进行testing。 听起来很简单,对吧? 好: check_http似乎没有检查撤销的证书。 至less在最近发生的时候没有发出哔哔声,这会导致一些混乱 Openssl的verify有-crl_check和-crl_check_all ,这将是伟大的,但我关心OSCP比CRL更多(因为这是浏览器将关心) Openssl有一个oscp模式,但是看起来我需要做很多工作才能把证书放在正确的位置,找出OSCP服务器的位置等等。 我发现了一些关于编写代码来执行OSCP检查的文章,但是必须有一个很好的程序来完成这个工作,对吗? 我想要的是一个Nagios检查,或者我可以使用的一个。 在我完美的世界里,看起来像这样: check_http_with_oscp -I (IP) -H (hostname) -p 443 任何人?
我有一个蚀刻nagios服务器(我将称之为NagiosServer),成功地监视了很多东西,包括另一个蚀刻服务器(MonitorEtch)。 使用check_nrpe和check_procs,我可以检查运行守护进程的进程列表,比如'/ usr / sbin / squid'。 从NagiosServer中检查MonitorEtch(正确的结果): /usr/lib/nagios/plugins/check_nrpe -H MonitorEtch -c check_process -a /usr/sbin/squid 1:1 1:1 PROCS OK: 1 process with args '/usr/sbin/squid' /usr/lib/nagios/plugins/check_nrpe -H MonitorEtch -c check_process -a whatever 1:1 1:1 PROCS CRITICAL: 0 processes with args 'whatever' 我已经build立了一个我想监视的新服务器,运行Lucid(MonitorLucid)。 无论我从NagiosServer尝试和监视哪个进程,我都会得到比我更高的结果。 从NagiosServer中检查MonitorLucid(不正确的结果): /usr/lib/nagios/plugins/check_nrpe -H MonitorLucid -c check_process -a whatever 1:1 1:1 PROCS OK: 1 […]
我有一个问题,我的nofication命令不扩展$ CONTACTEMAIL $macros (使用debian软件包在Debian上安装版本3.2.1) me@hostname:/etc/nagiosql# dpkg -l | grep nagios ii nagios-images 0.7 Collection of images and icons for the nagios system ii nagios-nrpe-plugin 2.12-4 Nagios Remote Plugin Executor Plugin ii nagios-plugins 1.4.15-3squeeze1 Plugins for the nagios network monitoring and management system ii nagios-plugins-basic 1.4.15-3squeeze1 Plugins for the nagios network monitoring and management system ii […]
在我们公司,我们为每个客户提供一个服务,为他们提供全天候的监控服务。 目前,我们正在使用咖啡馆有一个“中央监控显示”是所有主机和服务报警显示。 但是,如果configuration了3个以上的nagios,并且不得不读取大量的“status.dat”文件,那么这个function并不能正常工作。 所以我们正在考虑从咖啡变成其他任何“相同”的工具。 我想知道,如果你知道有任何其他工具,但是比Coffeesaint更完整或有更多的select。
我很难试图让我的脑海中想到一些Nagios的更基本的概念,我认为这将是直接的。 基本上,除了标准的本地基础设施外,我还需要监控一大堆第三方的networking服务,所有这些服务都有url。 我根本无法决定如何组织。 每个人都需要我创造一个新的服务,我明白,但在这之后… 我是否应该创build一个名为“第三方”的主机以及连接到它的3个服务,还是应该创build3个具有站点名称的新主机,这3个服务将它们一对一地链接起来? 我的首选是每个服务单个主机,因为每个服务是相互独立的,我相信这是应该设置Nagios的方式。 与此同时,这些服务器不能ping通。 默认情况下,它报告为closures。 我试图禁用check_command check-host-alive ,但是,这似乎使主机保持灰色… …有反正我可以让主机保持绿色,如果唯一的服务是绿色和/或如果我改变check_command到服务如上,这将做两个检查到Web服务,甚至是有check_command自己就够了,我不需要分配服务? 所以,真正的问题是… 我应该每个独立的服务使用一台主机,因为这些主机是正式的“主机”吗? 当一台主机只有一个服务,并且ping不通时,上面的最佳实践是什么? (有点额外)为了组织Nagios,分组这些主机的最好方法是什么? 这是什么依赖关系?