Articles of Nagios

使用主机服务覆盖Nagios主机组服务

我目前正在尝试为主机组中的所有主机定义一组服务,这工作正常。 我的问题是,我希望能够从主机组中覆盖主机中包含的这些服务定义。 例如,对于某些情况,某个特定的Linux服务器需要从默认值提高PING检查阈值。 因此,例如,我想在linux-server主机组中拥有一个主机,它inheritance了几个服务(SSH,Disk,PING等),但是对于我想用自己的唯一值覆盖的特定服务,定义一个特定于该主机的服务,具有自定义值。 例如。 使用定制的PING服务定义在linux-server定义一个主机: define host { use n1-host host_name server-01 hostgroups linux-server alias Test Linux Server parents my-gateway,upstream-gateway address server01.test.com } define service { use generic-service host_name server-01 service_description PING check_command check_ping!100.0,5%!400.0,15% } 不幸的是,即使主机名称和服务描述与组级别的PING检查相匹配,只有一个针对server-01 PING服务被列出,这是组级PING检查,而不是主机级别。 它似乎是注册在一些水平上,因为我可以看到我的Nagios日志: Jul 16 19:12:27 localhost nagios:警告:在主机“server-01”上为服务“PING”find重复的定义 但最终,我不能像检查服务检查结果的“性能数据”那样工作,我可以看到数据中包含的阈值是组检查的阈值,而不是主机检查。 不过,我的理解是,在3.2.0版本之前做了一个改变,允许主机级别的服务优先于主机组级别的服务。 我目前正在运行3.4.1 ,所以我认为这应该是工作。 一些导致我相信这个特性的链接应该已经被实现: https://www.mail-archive.com/[email protected]/msg29273.html http://forum.centreon.com/showthread.php/10643-Over-riding-checks-in-hostgroup http://ehc.ac/p/nagios/mailman/message/22496927/ http://markmail.org/message/ms6rzljthml7ejlt 此外,我已经从3.4.1源代码中检查了我的xdata/xodtemplate.c文件副本,并且在“跳过列表”中看起来好像在主机级别检查中的优先级高于主机组检查。 虽然承认,我的分析是原始的。 […]

监视/ proc / sys / fs / inode-nr

作为对一些Nagios脚本进行全面检查的一部分,我正在为脚本添加参数,以便可以逐个机器地确定阈值。 例如,我们正在指定可用于触发重要和警告警报的磁盘空闲百分比。 其中一个脚本监视/proc/sys/fs/inode-nr – 这有两个值, nr_inodes和nr_free_inodes 。 我对UNIX的内部知识没有太多的了解,所以我不太确定是否可以根据这个值来设置这个文件的阈值。 nr_inodes和nr_free_inodes会build议正在使用的inode的数量可以计算为(nr_inodes – nr_free_inodes) 。 因此,在猜测中,随着使用中的数字接近nr_inodes X%和Y%,脚本应分别触发警告和紧急警报。 这似乎是一种正确的假设吗? 谢谢 丰富

如何使用nagios监视linux服务器的内存使用情况

刚刚在中央机器上安装了nagios,在10台远程linux机器上安装了nrpe,并开始监视它们。 它工作很好。 我可以得到CPU负载,当前用户,进程,MySQL等。我无法find一种方法来监视使用核心插件的内存使用情况。 我错过了什么? 我需要一个外部插件来做到这一点?

我如何使用nagios监视ssh隧道?

我有一个服务器,用于一堆反向ssh隧道的中间人。 我想在该服务器上使用nagios来监视所有这些ssh隧道已经启动。 基本上我想做的nagios相当于: ssh -p 12344 localhost ssh -p 12415 localhost ssh -p 12544 localhost 我有以下定义: define host{ use generic-host host_name paniqui address localhost _PORT 12345 } define hostgroup { hostgroup_name chits-servers alias CHITS servers members paniqui } define service { hostgroup_name chits-servers service_description SSHTUNNEL check_command check_ssh!-p $_HOSTPORT$ $HOSTADDRESS$ use generic-service notification_interval 0 ; set […]

Nagios主机closures,但服务了

我有几台服务器(ftp),主机阻塞ICMP,因此显示为closures,但是服务(如ftp)已经启动。 停止服务抱怨主机被closures我已经承认这个问题。 我遇到的问题是在另一个晚上的FTP服务死亡,但我们没有得到有关它的通知。 我怎么能仍然得到有关Nagios认为是closures的主机上的服务状态通知,如果我禁用主动检查将解决这个问题? 干杯卢克

Nagios使用默认值check_total_procs

我们使用Nagios插件check_total_procs来检查我们服务器上的进程总数。 这个安装的默认设置是: command[check_total_procs]=/usr/lib/nagios/plugins/check_procs -w 150 -c 200 使用这些设置,几乎所有的服务器都处于警告状态(超过150个进程)或临界状态(超过200个进程)。 这些服务器都是基于Debian的,主要是Web和数据库服务器。 我的问题是这些默认值是一个很好的基准? 我应该担心,我的大部分服务器似乎有超过200个正在运行的进程,或者运行标准LAMP堆栈的机器是非常正常的吗?

Nagios自定义variables用于对象inheritance

在我们的Nagios设置中,我们使用服务和主机的模板和对象inheritance。 #Le Hosts define host{ use linux-nrpe,linux-dc3,linux-cassandra host_name tigris alias tigris address 192.168.4.72 } define host{ use linux-nrpe,linux-dc3,linux-cassandra host_name euphrates alias euphrates address 192.168.4.177 } #Le Templates define host{ name linux-nrpe use all-hosts hostgroups linux-nrpe contact_groups rhands,usergroup1,opcomms register 0 } #Le Services define service{ hostgroup_name linux-nrpe use high-priority-service,graphed-service service_description Load check_command check_by_nrpe!check_load!5,5,6!9,9,9 contact_groups rhands,usergroup1,opcomms } […]

如何删除所有的可用性历史数据?

在玩了一下nagios调整了一些variables之后,我想要去制作并清除迄今为止收集到的所有可用数据,所以我的nagios历史从今天开始。 我怎样才能做到这一点?

可通过多个path到达的主机的Nagios子/父关系?

考虑下面的networking设置: 此外,假设交换机1和2是受pipe理的交换机,但只有在vlan3上分配了一个IP地址。 你将如何设置这样的设置父/子树? 如果交换机1或2closures,客户端2将无法到达。 如果路由器B发生故障,则Switch1和Switch2仍然可达,因为要到达其pipe理IP地址,路由器将通过路由器A.但是,客户端2将closures。 因此,客户端2依赖于路由器B和交换机2(因此交换机1)正在运行。 通常情况下,设置的方法是什么? 你是否有一个策略,每个被pipe理的交换机上的每个Vlan都应该有一个pipe理IP,并将每个IP地址作为不同的主机(“switch1-vlan4”和“switch1-vlan3”)?

NRPE:无法读取输出

我试图监控MySQL数据库: [[email protected]〜]#su nagios -c / usr / lib / nagios / plugins / check_mysql运行时间:18014线程数:1问题:6慢速查询:0打开:12清空表:1打开表格:6每秒查询平均:0.000 但我有意想不到的错误: [[email protected]〜] $ / usr / lib / nagios / plugins / check_nrpe -H monitored.com -c check_mysql NRPE:无法读取输出 怎么了?