我创build了一个使用crm_mon命令检查我们的起搏器的Nagios检查。 该检查在Nagios服务器和客户端的nrpe.cfg上以相同的方式configuration: nrpe.cfg的命令定义如下所示: [root@Nagios_clt plugins]# grep pacemaker /etc/nagios/nrpe.cfg command[check_pacemaker]=/usr/bin/sudo /usr/sbin/crm_mon -s 我做了两个testing:在第一个testing中,我只使用上面看到的那一行,然后从Nagios服务器上得到: [root@Nagios_srv ]# /usr/lib64/nagios/plugins/check_nrpe -H 192.168.57.157 -c check_pacemaker NRPE: Unable to read output [root@Nagios_srv ]# /usr/lib64/nagios/plugins/check_nrpe -H 192.168.57.157 NRPE v2.14 在第二个中,我写了一个不同的命令定义: [root@Nagios_srv ]# grep pacemaker /etc/nagios/nrpe.cfg command[check_pacemaker]=/usr/lib64/nagios/plugins/check_pacemaker.sh 虽然/usr/lib64/nagios/plugins/check_pacemaker.sh看起来像这样: [root@Nagios_svr ]# cat /usr/lib64/nagios/plugins/check_pacemaker.sh #!/bin/bash /usr/bin/sudo /usr/sbin/crm_mon -s 我已经chmod + x check_pacemaker.sh文件。 这些都没有工作。 如果我在Nagios客户端本地运行check_pacemaker.sh文件,我会得到正确的结果: [root@Nagios_clt ]# […]
当我在主题中说'喜欢'时,那只是因为英语要求语法! 我不喜欢SCOM! 但业务需求几乎迫使我把它作为我的主要玻璃。 我想知道以下几点: 是否可以让SCOM查询Nagios来获取Nagios中所有节点的状态信息,并相应地提醒? 我已经做了一些关于这个问题的search,我空白了,因此把它扔给你们。 随意告诉我,我正在尝试一些愚蠢的,或build议替代品。
我有一个简短的脚本,打印出一个参数发送给它。 假设我发过来“打印这个”,不pipe我做什么,总是只打印出“打印”。 我曾尝试与PowerShell或批处理 – 相同的结果。 我也试过在testing模式,这是完全相同的问题。 有没有人遇到过这个?
运行Nagios Core 4.0.2并在客户端使用最新的NRPE。 我们有3个服务定义每分钟检查一个不同层次的软件: 打开TCP端口检查 进程正在运行检查 应用程序层通过向套接字发送数据并期待一些返回值来检查 在任何这些检查失败的状态下,我们将调用一个event_handler来重新启动服务,最多3次。 如果3后状态不好,则升级。 问题是有一些组合,如果一个服务将失败另一个预计将处于CRITICAL状态。 如果我们每个都有一个event_handler,两个都失败,那么通过event_handler重启脚本将被调用两次。 例如,如果进程没有运行,那么TCP端口将不会打开,应用层检查将失败。 例如,TCP端口可能是CRITICAL,因为防火墙configuration不当的规则或networking条件,应用程序层将失败,因为无法到达,但进程仍在运行 问题:我们如何确保事件处理程序只被一个失败的服务检查调用,而不是3个失败的服务中的两个或多个重新启动,因为它们的状态变为CRITICAL? 例如,如果3个服务检查进入CRITICAL,那么在1分钟内重新启动3次,在2分钟内重新启动6次(假设重新启动失败使服务恢复到OK状态)。 我相信服务依赖可能是正确的解决scheme,但我不知道如何去创build它们来满足不同的条件。
我最近为一个客户build立了Nagios ,并且一直在想我们从NagioGrapher获得的一些图表。 例如,所有系统对其物理内存“服务”使用相同的graphicsconfiguration。 但是,有些看起来像这样: 其他人看起来像这样。 这将更接近预期的结果。 为什么SRV-EXCHANGE的图表在12k和20k行之间有空闲空间,而SRV-TERRA01的graphics在graphics顶部有上限? 有人可能会认为在这个范围内有简单的值,这会导致graphics被绘制成这样,但是图例显示logging的最大值在预期的范围内。 我已经在NagiosGrapherconfiguration中设置了graph_lower_limit 1来将下限设置为0.根据我的理解,还可以通过graph_upper_limit指令为rrdtool设置一个固定的上限。 但据我了解,这将确定一个固定值作为上限。 但是我不明白为什么有这些差异。
这里是我的目标计算机上的df的结果~# df -h Filesystem Size Used Avail Use% Mounted on /dev/mapper/vgsys-lvroot 11G 5.4G 5.0G 52% / udev 24G 4.0K 24G 1% /dev tmpfs 4.0G 256K 4.0G 1% /tmp tmpfs 4.8G 6.1M 4.7G 1% /run none 5.0M 0 5.0M 0% /run/lock none 24G 0 24G 0% /run/shm /dev/mapper/vgsys-lvopt 30G 25G 4.8G 84% /opt /dev/sda1 226M 71M […]
我使用NRPE来监视一些Linux服务器,大部分检查都在工作。 实际上,唯一不起作用的检查是check_disk 。 从Nagios服务器terminal运行远程check_disk ,: [root@nagios]# /usr/lib64/nagios/plugins/check_nrpe -H 10.200.XX -c check_disk -a '-w 20% -c 10% /' DISK OK – free space: / 271971 MB (97% inode=99%);| /=8321MB;236233;265762;0;295292 从受监控服务器的terminal运行本地check_disk : [root@Monitored ~]# /usr/lib64/nagios/plugins/check_nrpe -H 127.0.0.1 -c check_disk -a '-w 20% -c 10% /' DISK OK – free space: / 271971 MB (97% inode=99%);| /=8321MB;236233;265762;0;295292 这个check_disk命令在它检查的每个服务器上返回错误"CHECK_NRPE: […]
我有一个新的关键数字/输出为7 SNMP关键 – * 7 * 以上7是指什么?
目前我们有4台裸机服务器和一台小型虚拟机服务器(都运行centos6),我正在设置监控Percona MySQL数据库服务器和复制奴隶(裸机),以及其余3个应用服务器。 好奇什么是build立一个监控configuration的首选方法是。 也许启动一个小型专用虚拟机,只运行远程监视其他5台服务器的监控工具? 你会在与要监视的服务器相同的主机上创build虚拟机吗? 也许使用像Digital Ocean这样的不同主机来运行监控工具?
我很难理解文档,并希望澄清。 我在nagios服务器及其客户机上都安装了从源代码安装的NRPE和nagios插件。 有人可以提供额外的服务检查,我可以添加到这个“数据库”服务器,如check_disk check_users check_load等…. 我有语法的困难: define host { use linux-server host_name database alias database address database register 1 } define service{ host_name database service_description PING check_command check_ping!100.0,20%!500.0,60% max_check_attempts 2 check_interval 2 retry_interval 2 check_period 24×7 check_freshness 1 contact_groups admins notification_interval 2 notification_period 24×7 notifications_enabled 1 register 1 }