我已经在我的dell供稿2950上安装了openmanage,并希望通过nrpe在我的nagios3监控服务器中集成check_openmanage。 我可以手动执行check_nrpe!check_openmanage命令(当我在我的nagios服务器上执行它时,它会从我要监视的服务器返回输出): ./check_nrpe -H example.com -c check_openmanage Controller 0 [PERC 5/i Integrated]: Firmware '5.2.1-0067' is out of date 我通过以下方式build立了服务: define service{ use some-service hostgroup_name dell-servers service_description dell servers check_command check_nrpe!check_openmanage } 我的问题是,在我的web界面我得到status: UNKNOWN与status information: (No output returned from plugin)
我花了一些时间来使用Nagios,Check_mk和一些其他非常有用的工具,作为OMD包的一部分。 一旦手动安装了check_mk代理,WATO特别适用于通过GUI来pipe理所有静态的基于Windows和Linux的服务器。 我想问问什么是使整个监控stream程自动化的最佳方式? 或者即使可以做到? 我们将使用厨师食谱来定期提供新的服务器,并频繁地closures其他服务器。 如果我们要继续使用Nagios / Check_mk,那么为了追踪和监控我们的基础设施,pipe理员的工作量是非常重要的。 非常感谢您的帮助。 史蒂夫
我有一台NagiosXi服务器在63台主机上监视631个服务。 每7个小时,服务器上的负载就会上升到20个,然后逐渐回落到接近0。 没有cron作业每7小时运行一次。 该服务器有8个核心和2GB的RAM。 内存不是问题,在峰值期间它仍然保持在1GB的容量,把它提高到4GB没有什么区别。 服务器也在一周前被迁移到一个新的主机,没有任何改变。 我们也有17台主机正在监控停机时间,所以他们只在周一至周五的上午6点到下午6点进行监控,这似乎对负载峰值没有影响。 大多数检查都是在Windows服务器上使用check_wmi_plus完成的。 在负载峰值期间,我倾向于使用2-3%cpu看到5-8个check_wmi_plus.pl实例,以及一些使用相同的httpd进程,但没有什么比使用大量cpu更突出。 这些过程也会相当快速地进行,所以它们不会被挂起或者长时间不寻常。 NagiosXi性能监视器中的服务检查执行时间趋于峰值约5.5秒,平均值约为1秒。 任何人都可以提出一个可能的原因,或者我可以如何进一步解决这个问题?
我通过Debian软件包安装了Nagios和Nagvis,但是当我运行Nagvis并尝试进入“常规configuration”菜单时,出现此错误 Error: (0) Array to string conversion (/usr/share/nagvis/share/server/core/classes/WuiViewEditMainCfg.php:126) #0 /usr/share/nagvis/share/server/core/classes/WuiViewEditMainCfg.php(126): nagvisExceptionErrorHandler(8, 'Array to string…', '/usr/share/nagv…', 126, Array) #1 /usr/share/nagvis/share/server/core/classes/WuiViewEditMainCfg.php(44): WuiViewEditMainCfg->getFields() #2 /usr/share/nagvis/share/server/core/classes/CoreModMainCfg.php(56): WuiViewEditMainCfg->parse() #3 /usr/share/nagvis/share/server/core/functions/index.php(120): CoreModMainCfg->handleAction() #4 /usr/share/nagvis/share/server/core/ajax_handler.php(63): require('/usr/share/nagv…') #5 {main} 在Nagvis我也遇到后端问题。 check-mk-livestatus被安装,但是当鼠标hover在项目上时出现这个错误: Problem (backend: live_1): Unable to connect to the /var/lib/nagios3/rw/live in backend live_1: Connection refused 或者当试图添加东西时: Unable to fetch data from backend – […]
我们对Nagios check_icmp监视器有一些挑战…我们的networking遭受微check_icmp ,可能会在我们的防火墙上check_icmp 1或2毫秒的stream量。 我们正在通过防火墙处理微爆问题,但微爆实际上是触发了来自纳吉欧斯的虚假主机下传报警。 Sun Jul 14 00:00:37 CDT 2013 [1373778037] HOST ALERT: host1;DOWN;SOFT;1;CRITICAL – 105.195.240.6: rta nan, lost 100% Sun Jul 14 00:00:37 CDT 2013 [1373778037] HOST ALERT: host2;DOWN;SOFT;1;CRITICAL – 105.195.115.33: rta nan, lost 100% Sun Jul 14 00:00:37 CDT 2013 [1373778037] HOST ALERT: host3;DOWN;SOFT;1;CRITICAL – 105.193.26.8: rta nan, lost 100% Sun Jul […]
我只是在服务器机器上安装了nagios,只是在HTTP服务上遇到严重错误。 错误是 HTTP CRITICAL – Socket timeout after 10 seconds 我search这个错误,并得到了build议运行check_http更长的超时。 所以我在文件commands.cfg附加-t 20在“check_http”命令旁边。 重新启动nagios,但我仍然得到一个错误(新的超时)。 然后再search一下。 这个错误似乎很常见,所以我开始想我可能有其他一些问题。 我试着自己运行check_http: root@srv$ /usr/libexec/nagios/check_http -H localhost -N -p 80 -t 1 HTTP OK: HTTP/1.1 200 OK – 846 bytes in 0.003 second response time |time=0.003080s;;;0.000000 size=846B;;;0 答案似乎没问题,但我对http的了解甚less。 任何线索? 编辑:从/etc/nagios/objects/commands.cfg采取的check_http的命令定义是 # 'check_http' command definition define command{ command_name check_http command_line $USER1$/check_http -I […]
我正在尝试使用nc写一个send_nsca的unit testing,但是它失败了。 我想要启动nc来侦听nsca端口,然后使用send_ncsa向该端口发送消息。 在一个terminal,我正在运行: nc -l 5667 -v 在另一个: echo -e "foo.example.com\ttest\t0\t0" | ./send_nsca -H localhost -p 5667 -c send_nsca.cfg 我的send_nsca.cfg文件只包含: encryption_method=0 。 在收听terminal上,我得到: Connection from 10.1.30.23 port 5667 [tcp/*] accepted 但没有别的。 在send_nsca方面我得到: Error: Timeout after 10 seconds 有任何想法吗? 编辑: 我重新编译了源代码并启用了DEBUG输出: Connected okay… Error: Timeout after 10 seconds Cleaned up encryption routines 从代码中我看到我缺less包含IV和时间戳的初始化数据包: #ifdef DEBUG […]
我们公司正在整合我们的监控解决scheme(WUG,Cacti,Zabbix)到Nagios。 我已经使用了Zabbix多年,并且正在努力了解如何让Nagios报告我已经编写了Nagios脚本的应用程序。 这些脚本已经写在客户端上,并放在“/ usr / local / nagios / etc / libexec”目录中。 脚本,一个简单的检查应用程序是否存在的脚本将根据需要返回“0”,“1”,“2”或“3”退出代码。 Nagios客户端上的“/usr/local/nagios/etc/nrpe.cfg”文件已经使用“command [command_name] = / path / to / command”节进行了编辑。 我可以find的所有文档都说要编辑服务器主机上的“commands.cfg”文件以指向“command_name”,但是打开该文件顶部的行表示不会被编辑,因为它将被覆盖,文件应放在“静态”目录或“input”目录中。 我试图弄清楚如何将命令“导入”到Nagios CCM中,而且几乎没有什么进展。 任何人都可以在正确的程序上做点什么来做到这一点,如果有一个更简单的方法来处理这个问题,看来这对于一个简单的任务来说是一个很大的努力。 TIA!
有没有办法将Nagios服务器的状态转发到第二个Nagios服务器? 我想安装一个Nagios服务器,通常收集有关networking上的机器和服务的信息。 这个应该在本地networking中运行,无限制地访问其他机器。 对于我不在办公室的时间,我想用networking界面来看看Nagios状态。 但是我不想允许从外部连接到本地networking。 我的想法是有第二个Nagios服务器,位于办公室networking之外(也许在DMZ中),并且主服务器将检查结果发送到外部服务器。 这样,只有来自本地networking的传出连接。 networking访问转到外部服务器。 这是可能的Nagios,或者是另一个不错的解决scheme?
有许多服务通知contact_group状态变化。 是否可以排除属于该组的单个联系人获取通知? 预先将联系人名称加上感叹号 contacts !user contact_groups admins 不起作用。 Nagios版本是3.0 由于有很多的服务,联系人组,主机等,我不想通过创build另一个组,而不仅仅是这个用户来引入更多的复杂性。 而且,由于这个小组应该监测的服务数量,很难跟踪谁收到了什么,而且看起来似乎是不直观的。 是否可以根据通知明确排除联系人?