我想知道你是否有经验或有关如何大规模build立nagios的任何想法。 以前我们使用nagios和nagiosql进行手动设置,对于less数几台服务器来说,这是相当舒服的。 最近服务器的数量已经改变,由nagiosql手动configuration变得不舒服。 我们使用厨师开始新的实例,我想知道是否有好的做法,一起使用厨师和nagios。 作为一种select,我们每次启动新实例时,只能使用nagios并重写nagios的configuration文件(基于服务器angular色)。 例如,情况可能是这样的,已经开始新的MySQL服务器,有一个专门的改写nagios设置文件的配方。 食谱可以从每个服务器获取厨师数据包的所有数据,并根据厨师angular色构build设置。
我正在设置Icinga(Nagios fork),我有一些有多个接口的机器。 有些服务只能在其中一个服务器上进行监听并正确检查,我想知道是否可以为Icinga中的单个主机configuration多个IP地址。 这是一个最小的例子: 远程服务器: eth0: 1.2.3.4 (公网IP) eth1: 10.1.2.3 (私有IP,安全隧道) Apache在1.2.3.4:80上1.2.3.4:80 。 (只限公众) OpenSSH在10.1.2.3:22收听。 (仅限内部networking) 在0.0.0.0:25 (所有接口)上侦听的Postfix SMTP Icinga服务器: eth0: 10.2.3.4 (私有IP,Internet访问) 现在,如果我定义一个主机: define host { use generic-host host_name server1 alias server1.gertvandijk.net address 10.1.2.3 } 这不会正确检查HTTP状态。 并定义一个额外的主机: define host { use generic-host host_name server1-public alias server1.gertvandijk.net address 1.2.3.4 } 将检查一切,但显示为两个独立的主机。 现在,我想将这两个主机“聚合”为一个主机,但提供一个简单的configuration来检查服务的正确地址。 什么是最优雅的configuration线保存解决scheme呢? 我阅读了几个可用于解决这个问题的插件,但我无法弄清楚目前的解决方法是什么。 解决scheme回到2003年,但我正在运行Icinga […]
我有一个特定应用程序的状态报告为通过SNMPstring。 当所有事情都按预期工作时,监视报告一个空string,当某些数据源出现问题时,报告一个带有受影响数据源名称的string。 我想在Zenoss的事件控制台上显示这个string作为alert / info,只要它不是空的。 问题是,每当我添加一个数据源types的SNMP到监测模板,它假定数值。 这个想法是使用一个StatusThreshold来查看值的变化。 进行此设置将不会在事件控制台上显示事件。 根据我的理解,阈值是根据RRD数据库中的数值进行评估的,数据库仅为数值,所以string始终变为“NaN”。 Zenoss的监控模板界面没有显示处理string的直观方式。 如何做到这一点?
我有一个供应系统设置新的主机在域test.domain.local,即client44.test.domain.local ,我有一个Icinga服务器,我想自动监视所有这些主机使用正则expression式,如*.test.domain.local 。 所有的客户端都会得到nagios-nrpe-server (version。2.13-3)包,它也被configuration为允许icinga服务器从它们中获取数据,并且已经被证实是可行的。 我们只是现在要监视服务/我们知道所有节点将会有的东西,例如SSH,响应ping等。 我已经看过这个链接,但我不太了解主机,主机组和服务类之间的关系? Icinga服务器和所有客户端都运行Debian。
我已经build立了一个有三个节点的Proxmox VE群集。 每个节点上都有一些虚拟机在运行。 我正在使用PVE监视器插件来设置主机和服务,这工作正常。 我的问题是,Nagios的电子邮件发送行为有点奇怪。 理想情况下,我想每分钟检查一次,对于节点以及每个节点上运行的所有服务。 我的configuration文件如下所示: # Define the cluster itself as a host # the command check_pve_cluster_nodes give us info # on the member's cluster state define host { host_name pve-cluster max_check_attempts 10 check_command check_pve_cluster_nodes contact_groups admins check_interval 1 contact_groups admins notifications_enabled 1 } # define openvz, qemu and storages as services of […]
我遇到了Nagios的check_tcp插件问题,无法find任何需要的插件。 我通过check_tcp发送一个string到一个端口,并得到一个数字,在这种情况下,2580.在这个数字,我需要定义警告和crital值。 例: /usr/lib/nagios/plugins# ./check_tcp -H XXXXXXXXXX -p 51031 -E -s "status\r\n" -d 1 -t 30 -e "SOMEThING" TCP WARNING – Unexpected response from host/socket: 2580|time=0,000358s;;;0,000000;30,000000 我需要像这样的东西: /usr/lib/nagios/plugins# ./check_tcp -H XXXXXXXXXX -p 51031 -E -s "status\r\n" -d 1 -t 30 -w 2500 -c 3000 有无论如何做这个或任何我没有find的插件?
我们使用ks-soft的Advanced Hostmonitor软件包来监视我们networking上的大约2000个项目。 我们觉得这很棒,支持它的人是太棒了,产品是快速,稳定和成熟的,但是我觉得随着公司的成长,我们开始在与后台pipe理系统整合方面出现一些摩擦点。 我们想要做的事情之一就是能够通过API向我们使用的任何监控工具添加新的testing。 例如,当服务器订单来自我们的零售界面时,服务器会自动生成,作为自动化构build过程的一部分,我们希望自动将新的testing添加到networking监控系统。 Hostmonitor通过一个称为HM Script的function对此有一些支持,但是我们开始遇到一些快速启动 – 我们不能添加新的运营商/用户 我们无法定义新的“动作configuration文件” – 这是testing好坏时要采取的行动。 但是我们所喜欢的关于hostmonitor的是行动档案。 例如,如果一个Windows IIS框变坏,我们的一个糟糕的testing的动作configuration文件就像这样: 再次检查主机(一次) 再等待30秒,然后再次testing 尝试重新启动远程计算机上的应用程序池(最多两次) 发送电子邮件给ops关于重启失败 尝试在远程计算机上重新启动IIS(最多四次) 页面值classpipe理员(最多5次 – 值class后pipe理员确认提醒) 页面备份任务pipe理员(5次 – closures后pipe理员确认提醒) 我开始环顾其他networking监控工具,我正在寻找: 一个全面的API能够添加/删除/控制testing/testing“动作configuration文件”/运营商(不只是插件,我们需要控制和pipe理界面) 能够具有相当详细的行动/升级configuration文件(并通过API定义这些) 我看过Nagios和Icinga,但是我不能从他们的文档中收集是否可以使用这些特性,或者如果可以的话,实现/定制将涉及多less工作。 任何人都可以提供任何build议,指导或经验?
如果没有问题,我需要configurationNagios发送一个通知,说明一切顺利。 这种设置是存在还是有插件?
以下是当我点击任何服务/主机扩展信息时的屏幕截图: 顶部的怪异信息: 行的内容以__gmon_start_libc.so…开头: __gmon_start__libc.so.6fflushstrcpy__rawmemchrgmtime_rexitreaddirfopenstrrchr__strdupclosedirstrncpyputsputcharreallocstdinstrpbrklocaltime_rgmtimestrtokmmapfgetscallocstrlenmemsetstrstr__errno_locationstdoutmemcpyfcloserand__strtol_internalmallocstrcatstrcasecmpasprintfopendirgetenvsscanfsystemmunmapstrncasecmp__fxstatstrncatfreadlocaltimestrchrmktimeqsort__strtod_internal__ctype_toupper_loc__ctype_tolower_loc__xstatstrcmpstrerror__libc_start_mainsnprintf__strtoul_internalfreeGLIBC_2.3GLIBC_2.2.5 和格式不好的菜单在底部: 点击任何服务命令,它会响应“400错误请求”错误。 Apache中的configuration: <VirtualHost *:80> ScriptAlias /nagios/cgi-bin "/usr/local/nagios/sbin" ServerName xx ErrorLog logs/nagios.error_log <Directory "/usr/local/nagios/sbin"> Options ExecCGI AllowOverride None Order allow,deny Allow from all </Directory> Alias /nagios "/usr/local/nagios/share" <Directory "/usr/local/nagios/share"> Options None AllowOverride None Order allow,deny Allow from all </Directory> </VirtualHost> Apache的错误日志中没有任何与此相关的东西。 我已经更新到最新版本3.3.1: nagios -v Nagios Core 3.3.1 Copyright (c) 2009-2011 Nagios […]
我希望能够测量每个用户的入站ssh连接使用的带宽,到一个linux的盒子。 我使用iptables和用户匹配来衡量大多数其他stream量,但入站ssh套接字似乎是由root拥有,所以我不能在这里使用这种方法。