我有几个相同的前端Web服务器,由Nagios监视各种服务和主机性能统计(应用指标,内存,CPU等)。 我也使用图表浏览器组件,我真的很喜欢。 我特别喜欢用时间堆积的图来分析每个Web服务器随时间的性能,但是想知道是否有一种方法来堆栈主机。 由于这些服务器都做同样的事情,我想查看主机堆叠的每个监控服务。 所以例如:我想看看MongoDB复制滞后的最后x天每个服务器堆叠在一起在同一个graphics中的对方。 此外,我没有在graphics浏览器中的多堆积图的选项。 可用的唯一选项是热门警报,主机运行状况,服务运行状况,可伸缩性能图时间堆叠性能图。 Nagios的版本是:Nagios XI版本:2012R2.2
shinken 2.0.3 nrpe 2.15 我们使用nsca来执行被动检查。 define service { name salt-service register 0 active_checks_enabled 0 passive_checks_enabled 1 check_freshness 1 freshness_threshold 600 max_check_attempts 2 check_interval 5 retry_interval 3 } define service { use salt-service service_description syncthing_procs-2 host_name x check_command check_nrpe!syncthing_procs!10 display_name Syncthing Procs } 虽然freshness_threshold是10分钟,但是被动检查是陈旧的情况: Oct 6 09:52:36 x shinken:[Tue Oct 6 09:52:35 2015]警告:主机'x'上服务'syncthing_procs-2'的结果是陈旧的0d 0h 10m 16s(threshold […]
我试图设置一个基本的例子NRPE作为第一步部署它。 为了简单起见,我在本地运行NRPE和Nagios。 NRPE和Nagios似乎都在工作,但从Nagios使用check_nrpe神秘地失败。 编辑:我使用Nagios的4.1.1版和NRPE的2.15版。 我认为NRPE正在工作,因为我可以手动运行check_nrpe: /s/l/n/nagios_instance ❯❯❯ libexec/check_nrpe -H 127.0.0.1 -p 5667 -c check_total_procs ⏎ PROCS CRITICAL: 536 processes | procs=536;150;200;0; 我认为Nagios正在工作(并提供正确的参数),因为我已经在python中写了这个简单的检查,名为check_hello_world.py的文件位于libexec目录中: #!/usr/bin/env python import sys print str(sys.argv) raise SystemExit, 2 我的nagiosconfiguration的相关行如下所示: define host { use linux-server host_name yourhost alias My first Apache server address 127.0.0.1 } define command { command_name check_procs_nrpe command_line $USER1$/check_hello_world.py –H […]
pipe理已安装的Nagios(或Icinga)插件的build议方法是什么? 目前我的系统上的所有插件都是从Debian / Ubuntu软件包安装的,所以这需要更新,文件完整性和干净的卸载。 有没有类似的方式来pipe理插件,例如在http://exchange.nagios.org上提供? 我目前的印象是,我必须从网站手动下载脚本文件,并将其放置在/ usr / local /中的某处。 但我必须手动检查这些脚本的更新和错误修正,我必须手动跟踪这些文件的下载位置,而且我必须手动跟踪依赖项,以防插件由多个文件组成。 有没有更好的方法来pipe理这些插件?
当我尝试将木偶与Nagios集成时,我遇到了一些问题。 这是我的configuration(我知道,这是如此简单,但这是我第一次尝试) /etc/puppet/modules/nagios/manifests/init.pp class nagios::server { package { ["nagios"]: ensure => installed, } service { nagios: ensure => running, enable => true, } file { 'resource-d': path => '/etc/nagios/objects', ensure => directory, owner => 'nagios', } # Collect the nagios_host resources Nagios_host <<||>> { require => File[resource-d], notify => [Service[nagios]], } } /etc/puppet/modules/nagios/manifests/export.pp class nagios::export […]
我正在尝试使用nagios nrpefunction来监视Java内存使用情况。 所以我下载并安装check_jstat并在远程服务器上安装插件。 当我跑下面是结果: OK: jstat process 819 alive|pid=819 heap=344409;3072000;11;-1;-1 perm=156121;1198080;13;-1;-1 当我从nagios服务器运行它时,我得到: root@ip-xx-xx-xx-xx:/usr/local/nagios/libexec# ./check_nrpe -H 172.31.5.84 -c check_jstat NRPE: Unable to read output root@ip-xx-xx-xx-xx:/usr/local/nagios/libexec# ./check_nrpe -H 172.31.5.84 -c check_jstat -w 80 -c 90 NRPE: Unable to read output 以下是我的configuration: 在远程服务器上: command[check_jstat]=sudo /usr/lib/nagios/plugins/check_jstat -p `pgrep java` -w 85 -c 95 在Nagios服务器上: define service{ use generic-service ; […]
我有大约10台configuration了nrpe和戴尔OMSA的机器向nagios报告。 对于每台机器,从nagios服务器的命令行上输出一个la ./check_nrpe -H $HOSTNAME -c check_om_tag 匹配我在Web界面中看到的输出。 但是,我有一台机器,它可以从nagios服务器上的命令行返回成功的输出,但是会在Web界面报告中返回 NRPE: Unable to read output. 我能find的“无法读取输出”错误的每一个讨论都假设命令总是失败,无论是命令行还是网页,并build议权限或SELinux修复。 但命令行成功应该意味着我没有权限或SELinux问题。 有没有人有这种不匹配的经验? 编辑:
Nagios 4.1.1 Ubuntu 14.04 x64 请注意这是一个新的服务器。 我们的老Nagios服务器有这个完全相同的configuration,但在RHEL上的版本3,它的工作原理。 我有一个自定义命令来检查OpenVPN服务器的外部连接性: define command{ command_name check_udp_openvpn command_line $USER1$/check_udp -H $HOSTADDRESS$ -p $ARG1$ -s "$38$01$00$00$00$00$00$00$00" -e "" } $ USER1 $指向/ usr / local / nagios / libexec,这对我所有的命令声明都是一样的。 如果我运行它为ROOT:PASS /usr/local/nagios/libexec/check_udp -H vpn.myhost.com -p 43963 -s "$38$01$00$00$00$00$00$00$00" -e "" UDP OK – 0.003 second response time on vpn.myhost.com port 43963 [@¬è«ÿï]|time=0.003033s;;;0.000000;10.000000 […]
我们有很多IBM x86服务器,我们需要监视硬件问题(磁盘故障/温度/风扇)。 其中50%左右的IMM端口已经连接,我们可以使用Nagios监视SNMP陷阱。 如果出现任何硬件问题,IMM将向Nagios服务器IP发送陷阱,并收到通知。 这里的问题是我们有很多服务器在不同的地方,我们无法连接IMM端口。 有没有我们可以安装在这些服务器上的代理来监视硬件故障? 某些不需要IMM端口连接并将使用常规networking接口? 运行在这些服务器上的操作系统是Windows和RHEL。 我们可以安装Nagios代理(nsclient ++或NRPE),但根据我收到的信息,他们无法读取硬件信息。 我有什么select?
当通过http:// localhost / nagios开始连接时,我可以得到“使用PID 2027运行的守护进程”。 但通过http:// own_ip / nagios连接 ,我无法获得“守护进程运行状态”,而是显示为“无法获得进程状态”。 守护进程运行状态 http://postimg.org/image/6wgzsgr6p/ 守护进程不运行状态 http://postimg.org/image/59m9qqrvl/