Articles of Nagios

在Nagios / OMD中一个小时后联系小组进行警报

我正在尝试为下面的场景find一个解决scheme。 我有一个Nagios几百个服务(OMD安装check_mk和其他美味的东西),它们被定义为不同的服务types,所以对于不同的types,我有不同的联系人组,谁会在发生问题时得到警报。 它运行良好,但是如果服务在1小时后处于关键状态,并且已经被确认/评论等,我想要调用一个脚本。 我在参考文档中没有find任何内容。 提前谢谢你的帮助 典型的服务types: define contact{ contact_name level1 ; Short name of user use generic-contact ; Inherit default values from alias Gravity Level1 ; Full name of user email [email protected] ; email for alerting } define contactgroup{ contactgroup_name defcon3 members level1, level2 } define service{ name defcon3-service ; The 'name' of this service […]

语法错误在'{'; 预计'}'在傀儡中使用nagios

这对我来说是一个很大的问题,因为我不熟悉木偶。 傀儡大师的错误: debug: importing '/etc/puppet/manifests/nodes/group-1.pp' err: Could not parse for environment production: Syntax error at '{'; expected '}' at /etc/puppet/manifests/nodes/group-1.pp:6 傀儡客户机上的错误: err:无法从远程服务器检索目录:SERVER上的错误400:无法parsing环境生成:在语法错误'{'; 在/etc/puppet/manifests/nodes/group-1.pp:6预期'}' 在组1.pp中: node 'group1' { include ntp class { 'nagios::host': #this is line 6 nodename => $clientcert, appname => 'test', } } nagios ::主机在模块模块/ nagios / host.pp代码在这里: class nagios::host($nodename, $hostgroup) { file { […]

Nagios check_tcp ESTABLISHED连接

我感兴趣的是看看客户端是否可以通过端口63004连接到我们。现在check_tcp很好地检查端口是否可用。 Unfortunatley我需要知道端口是处于LISTENING状态还是ESTABLISHED。 是否有可能检查端口的状态是否为ESTABLISHED,因为我们处于监听状态,并等待客户端连接到我们

NRPE:无法读取输出CentOS6

我正在监视安装了NTP服务的CentOS 6机器。 监控服务器是Nagios和Centreon的CentOS 5机器。 我正在使用NRPE来监视远程主机,并在我configuration的四个服务中的两个服务中收到以下错误: NRPE: Unable to read output 我做了check_nrpe -H (publicserverip) ,一切似乎check_nrpe -H (publicserverip) 。 另外,我已经在nrpe.cfgconfiguration了这些命令

从Nagios获取主机和服务的完整列表

我需要从Nagios获得完整的主机和服务列表,以制定决策表。 我认为有两种方法,查询Nagios CGI和parsingNagios cfg文件。 但是… Nagios的cfg文件可能不是标准的,这可能是一个问题。 任何人都知道怎么做? 提前致谢

check_mk存储configuration文件在哪里?

我对check_mk / nagios / monitoring世界有点新鲜。 我正在尝试使用omd 1.0作为一个简单的方法,以便在Ubuntu主机上完成所有设置和工作。 到目前为止,事情很棒! 尽pipe我将所有的工作都投入了系统,但我认为备份将是一个好主意。 传统上,主机和检查configuration似乎保存在check.mk的main.mk文件中,但我的显示: # Put your host names here # all_hosts = [ 'localhost' ] all_hosts = [ ] 那么…这不是有趣的! 我有大约40个服务器/交换机添加并显示在check_mk多站点。 我使用WATO做check_mk添加主机,我猜这就是为什么没有写入到这个文件。 为了简单起见,我想继续与WATO合作。 那么 – 主机和检查信息写在哪里? 提前致谢!

我如何得到check_http -r来查找正好n个string的实例

我有一个URL可以查询,以确保我的应用程序正常运行。 结果如下所示。 检查“确定”是在string不告诉我一切都好,我需要知道它发生3次。 { “主人”: “主机名”, “HTTP”:{ “地位”: “OK”}, “MySQL的”:{ “地位”: “OK”}, “蒙戈”:{ “地位”:“OK “}} 我正在尝试下面的命令,但我想我没有正确地执行正则expression式,有人可以build议吗? / usr / lib / nagios / plugins / check_http host-name -4 -w 3 -c 5 -u'/ app / system / status'-r'ok {3}'-p 8080 给我 HTTP CRITICAL:HTTP / 1.1 200 OK – 未find模式 – 0.011秒响应时间中的245个字节| time = 0.010820s; 3.000000; […]

Nagios:closures在主机上的服务检查/显示

我想调整nagios的方式,所有的检查停止(服务不显示,或显示为未知)的任何下降节点。 换句话说,我只想看到一个closures主机的警报,而不是1(下)+ n(每个服务1)。 请注意,我对服务显示/状态感兴趣,不仅在closures通知。 理由:我们使用nagios firefox / chrome插件来监视状态,并且nagios的行为太吵,给出这样的读数(因为每个节点有20个服务): 3 down, 1 unreachable, 4 warnings, 87 critical 这意味着上级节点上的7个关键服务(问题出在服务上)被淹没在一堆红色的服务中,这些红色的服务仅仅是因为他们坐落在一个不可用的节点上。 我想看到的是: 3 down, 1 unreachable, 80 unknown, 4 warnings, 7 critical 甚至 3 down, 1 unreachable, 4 warnings, 7 critical 我查看了服务依赖关系,但是我没有办法描述:“在主机检查状态下在活动主机依赖关系上创build所有服务”。 我发现这里讨论的问题,其中一个参与者认为这是一个nagios错误,并在这里其中一个参与者认为这是“devise”。 事实上,我只是对效果感兴趣,更不用说devise理念。 请注意,这个nagios正在检查数百个节点,所以解决scheme的维护性也很重要。 TIA和欢呼声。

将Nagios与票务/事件pipe理系统集成

有没有免费的票务系统/事件pipe理系统,可以帮助我实现以下目标? 1)如果一个服务出现故障,那么Nagios会警告值class人员,并把状态推到一些后台或数据库作为一张票,比如初始状态是"New" 。 2)值class人员通过前台login并通过将其标记为"In progress ”来确认新的票证,所以现在票证的状态从"New"改变为"In progress" 。 3)即使在“n”分钟之后,没有值class人员将票状态更改为"In progress" Nagios会提醒下一级联系人。 虽然值class人员已经确认了机票,但是没有必要提醒下一个级别。 4)服务启动时,Nagios通过标记“ Closed" 现在我已经设置了Nagios监控,目前它通过发送短信和邮件来发出警报,但是我正在寻找的是一些只会升级问题(警告第二级)的框架,如果第一级(值class人员)失败以响应最初的警报。 通过“响应警报”,我的意思是,值class人员可以通过一些前端login,基本上将状态更改为"Acknowledged"或"In progress" 。

通过SNMP存储大小的负值

我们在Windows存储服务器上的5 TB卷上空间不足,因此我们将数据复制到新的10 TB卷中。 现在我们基于nagios的监测报告了我不满意的数据。 当我查看数据时,我注意到它报告了卷的总空间的负值。 状态信息: V:标签:卷XYZ序列号f6435543:使用-72%(4545076MB / -6291462MB)(<80%):OK 性能数据:“V:_Label:VolumeXYZ__Serial_Number_f6435543”= 4545076MB; -5033169; -5662316; 0; -6291462 起初,我假定caching问题,但我自己的方式通过snmpwalk手动查找值。 结果是: iso.3.6.1.2.1.25.2.3.1.1.6 = INTEGER: 6 iso.3.6.1.2.1.25.2.3.1.2.6 = OID: iso.3.6.1.2.1.25.2.1.4 iso.3.6.1.2.1.25.2.3.1.3.6 = STRING: "V:\\ Label:VolumeXYZ Serial Number f6435543" iso.3.6.1.2.1.25.2.3.1.4.6 = INTEGER: 4096 iso.3.6.1.2.1.25.2.3.1.5.6 = INTEGER: -1610614235 iso.3.6.1.2.1.25.2.3.1.6.6 = INTEGER: 1163527892 iso.3.6.1.2.1.25.2.3.1.7.6 = Counter32: 0 鉴于所有其他卷在iso.3.6.1.2.1.25.2.3.1.5分支报告正值,我假设在这里看到一个负值的问题,是一个指标,为什么我看到一个在nagios的负值。 我该如何纠正这种情况?