Nagios 服务器 Gind.cn

在大规模的nagios自动化

我想知道你是否有经验或有关如何大规模build立nagios的任何想法。以前我们使用nagios和nagiosql进行手动设置，对于less数几台服务器来说，这是相当舒服的。最近服务器的数量已经改变，由nagiosql手动configuration变得不舒服。我们使用厨师开始新的实例，我想知道是否有好的做法，一起使用厨师和nagios。作为一种select，我们每次启动新实例时，只能使用nagios并重写nagios的configuration文件（基于服务器angular色）。例如，情况可能是这样的，已经开始新的MySQL服务器，有一个专门的改写nagios设置文件的配方。食谱可以从每个服务器获取厨师数据包的所有数据，并根据厨师angular色构build设置。

在Icinga（Nagios）中，如何configuration多个IP的主机？

我正在设置Icinga（Nagios fork），我有一些有多个接口的机器。有些服务只能在其中一个服务器上进行监听并正确检查，我想知道是否可以为Icinga中的单个主机configuration多个IP地址。这是一个最小的例子：远程服务器： eth0： 1.2.3.4 （公网IP） eth1： 10.1.2.3 （私有IP，安全隧道） Apache在1.2.3.4:80上1.2.3.4:80 。（只限公众） OpenSSH在10.1.2.3:22收听。（仅限内部networking）在0.0.0.0:25 （所有接口）上侦听的Postfix SMTP Icinga服务器： eth0： 10.2.3.4 （私有IP，Internet访问）现在，如果我定义一个主机： define host { use generic-host host_name server1 alias server1.gertvandijk.net address 10.1.2.3 } 这不会正确检查HTTP状态。并定义一个额外的主机： define host { use generic-host host_name server1-public alias server1.gertvandijk.net address 1.2.3.4 } 将检查一切，但显示为两个独立的主机。现在，我想将这两个主机“聚合”为一个主机，但提供一个简单的configuration来检查服务的正确地址。什么是最优雅的configuration线保存解决scheme呢？我阅读了几个可用于解决这个问题的插件，但我无法弄清楚目前的解决方法是什么。解决scheme回到2003年，但我正在运行Icinga […]

如何在Zenoss上添加一个stringtypes的SNMP OID事件/警报？

我有一个特定应用程序的状态报告为通过SNMPstring。当所有事情都按预期工作时，监视报告一个空string，当某些数据源出现问题时，报告一个带有受影响数据源名称的string。我想在Zenoss的事件控制台上显示这个string作为alert / info，只要它不是空的。问题是，每当我添加一个数据源types的SNMP到监测模板，它假定数值。这个想法是使用一个StatusThreshold来查看值的变化。进行此设置将不会在事件控制台上显示事件。根据我的理解，阈值是根据RRD数据库中的数值进行评估的，数据库仅为数值，所以string始终变为“NaN”。 Zenoss的监控模板界面没有显示处理string的直观方式。如何做到这一点？

将子网中的所有主机添加到icinga监视，而不指定主机名/ IP

我有一个供应系统设置新的主机在域test.domain.local，即client44.test.domain.local ，我有一个Icinga服务器，我想自动监视所有这些主机使用正则expression式，如*.test.domain.local 。所有的客户端都会得到nagios-nrpe-server （version。2.13-3）包，它也被configuration为允许icinga服务器从它们中获取数据，并且已经被证实是可行的。我们只是现在要监视服务/我们知道所有节点将会有的东西，例如SSH，响应ping等。我已经看过这个链接，但我不太了解主机，主机组和服务类之间的关系？ Icinga服务器和所有客户端都运行Debian。

configurationnagios通知设置非常频繁

我已经build立了一个有三个节点的Proxmox VE群集。每个节点上都有一些虚拟机在运行。我正在使用PVE监视器插件来设置主机和服务，这工作正常。我的问题是，Nagios的电子邮件发送行为有点奇怪。理想情况下，我想每分钟检查一次，对于节点以及每个节点上运行的所有服务。我的configuration文件如下所示： # Define the cluster itself as a host # the command check_pve_cluster_nodes give us info # on the member's cluster state define host { host_name pve-cluster max_check_attempts 10 check_command check_pve_cluster_nodes contact_groups admins check_interval 1 contact_groups admins notifications_enabled 1 } # define openvz, qemu and storages as services of […]

缺lesscheck_tcp Nagios插件中的function

我遇到了Nagios的check_tcp插件问题，无法find任何需要的插件。我通过check_tcp发送一个string到一个端口，并得到一个数字，在这种情况下，2580.在这个数字，我需要定义警告和crital值。例： /usr/lib/nagios/plugins# ./check_tcp -H XXXXXXXXXX -p 51031 -E -s "status\r\n" -d 1 -t 30 -e "SOMEThING" TCP WARNING – Unexpected response from host/socket: 2580|time=0,000358s;;;0,000000;30,000000 我需要像这样的东西： /usr/lib/nagios/plugins# ./check_tcp -H XXXXXXXXXX -p 51031 -E -s "status\r\n" -d 1 -t 30 -w 2500 -c 3000 有无论如何做这个或任何我没有find的插件？

具有APIfunction的networking监控工具

我们使用ks-soft的Advanced Hostmonitor软件包来监视我们networking上的大约2000个项目。我们觉得这很棒，支持它的人是太棒了，产品是快速，稳定和成熟的，但是我觉得随着公司的成长，我们开始在与后台pipe理系统整合方面出现一些摩擦点。我们想要做的事情之一就是能够通过API向我们使用的任何监控工具添加新的testing。例如，当服务器订单来自我们的零售界面时，服务器会自动生成，作为自动化构build过程的一部分，我们希望自动将新的testing添加到networking监控系统。 Hostmonitor通过一个称为HM Script的function对此有一些支持，但是我们开始遇到一些快速启动 – 我们不能添加新的运营商/用户我们无法定义新的“动作configuration文件” – 这是testing好坏时要采取的行动。但是我们所喜欢的关于hostmonitor的是行动档案。例如，如果一个Windows IIS框变坏，我们的一个糟糕的testing的动作configuration文件就像这样：再次检查主机（一次）再等待30秒，然后再次testing 尝试重新启动远程计算机上的应用程序池（最多两次）发送电子邮件给ops关于重启失败尝试在远程计算机上重新启动IIS（最多四次）页面值classpipe理员（最多5次 – 值class后pipe理员确认提醒）页面备份任务pipe理员（5次 – closures后pipe理员确认提醒）我开始环顾其他networking监控工具，我正在寻找：一个全面的API能够添加/删除/控制testing/testing“动作configuration文件”/运营商（不只是插件，我们需要控制和pipe理界面）能够具有相当详细的行动/升级configuration文件（并通过API定义这些）我看过Nagios和Icinga，但是我不能从他们的文档中收集是否可以使用这些特性，或者如果可以的话，实现/定制将涉及多less工作。任何人都可以提供任何build议，指导或经验？

如何从Nagios发送“一切正常”通知？

如果没有问题，我需要configurationNagios发送一个通知，说明一切顺利。这种设置是存在还是有插件？

关于Nagios Web UI的奇怪扩展信息

以下是当我点击任何服务/主机扩展信息时的屏幕截图：顶部的怪异信息：行的内容以__gmon_start_libc.so…开头： __gmon_start__libc.so.6fflushstrcpy__rawmemchrgmtime_rexitreaddirfopenstrrchr__strdupclosedirstrncpyputsputcharreallocstdinstrpbrklocaltime_rgmtimestrtokmmapfgetscallocstrlenmemsetstrstr__errno_locationstdoutmemcpyfcloserand__strtol_internalmallocstrcatstrcasecmpasprintfopendirgetenvsscanfsystemmunmapstrncasecmp__fxstatstrncatfreadlocaltimestrchrmktimeqsort__strtod_internal__ctype_toupper_loc__ctype_tolower_loc__xstatstrcmpstrerror__libc_start_mainsnprintf__strtoul_internalfreeGLIBC_2.3GLIBC_2.2.5 和格式不好的菜单在底部：点击任何服务命令，它会响应“400错误请求”错误。 Apache中的configuration： <VirtualHost *:80> ScriptAlias /nagios/cgi-bin "/usr/local/nagios/sbin" ServerName xx ErrorLog logs/nagios.error_log <Directory "/usr/local/nagios/sbin"> Options ExecCGI AllowOverride None Order allow,deny Allow from all </Directory> Alias /nagios "/usr/local/nagios/share" <Directory "/usr/local/nagios/share"> Options None AllowOverride None Order allow,deny Allow from all </Directory> </VirtualHost> Apache的错误日志中没有任何与此相关的东西。我已经更新到最新版本3.3.1： nagios -v Nagios Core 3.3.1 Copyright (c) 2009-2011 Nagios […]

测量每个用户在Linux上的SSH服务器端连接使用的带宽

我希望能够测量每个用户的入站ssh连接使用的带宽，到一个linux的盒子。我使用iptables和用户匹配来衡量大多数其他stream量，但入站ssh套接字似乎是由root拥有，所以我不能在这里使用这种方法。

Intereting Posts

戴尔相当于思科跨度保护用户机器（家庭办公室）的VPN访问如何在Dovecot上安装SENT和TRASH文件夹？这个RPC错误信息是什么意思？ bash：以红色打印stderr Ubuntu，确定内核补丁的紧迫性，以便更好地控制系统何时需要重新启动不要让一个主机被垃圾邮件私人DNS问题 Apache代理问题：错误的请求，域名变成IP地址等等从ec2-consistent-snapshot快照中恢复Amazon EBS RAID0arrays 在Apache重启之后，客户“丢失了rails 2.3.4 gem” 我应该在导入SSL证书后删除.pfx或.cer文件吗？如何在使用tar时设置bzip2的块大小？当使用nginx时，我们可以在请求中logging`Accept-Encoding`字段吗？局域网重置，如果我重新启动路由器，但有没有更好的方法来解决局域网连接

Articles of Nagios