Articles of Nagios

Centos 5.xx Nagios sSMTP邮件不能从Nagios服务器发送,但是从控制台运行良好

我花了3个小时的时间研究如何让nagios使用电子邮件通知,我需要发送电子邮件forms的工作,只有可访问的smtp服务器是公司的。 我设法从控制台完成使用: mail [email protected] 为我build立ssmtp.conf的purpouse完美工作如下: [email protected] mailhub=smtp.company.com:587 [email protected] AuthPass=mypassword FromLineOverride=YES useSTARTTLS=YES rewriteDomain=company.pl hostname=nagios UseTLS=YES 我还编辑了文件/ etc / ssmtp / revaliases,如下所示: root:[email protected]:smtp.company.com:587 nagios:[email protected]:smtp.company.com:587 nagiosadmin:[email protected]:smtp.company.com:587 我还编辑了/ etc / ssmtp / *的文件权限,如下所示: -rwxrwxrwx 1 root nagios 371 lis 22 15:27 /etc/ssmtp/revaliases -rwxrwxrwx 1 root nagios 1569 lis 22 17:36 /etc/ssmtp/ssmtp.conf 我分配给适当的团体我相信: cat /etc/group |grep nagios mail:x:12:mail,postfix,nagios mailnull:x:47:nagios nagios:x:2106:nagios […]

什么会导致平均负载10-30(而不是10-30%)

可能重复: 如何理解linux服务器的内存使用量和平均负载 我不确定这是否会更好一些,名为“为什么Nagios需要监控负载达到30”。 情况:我正在为我们的networkingbuild立Nagios,并已经在* nix盒子上build立了NRPE。 我已经(在纸上)大致了解我想要设置通知的位置。 举个例子,看起来像这样:1分钟:警告90%,暴击100%5分钟:警告80%,暴击90%15分钟:警告60%,暴击70% 服务器运行两个虚拟CPU,所以我打算使用-r参数来获得每个CPU的结果(是的,我知道这不是真的每个CPU,这是所有的负载除以他们的数量,我是好吧)。 所以当我看到NRPEconfiguration文件中的默认设置时,我已经准备好设置它了: command[check_load]=/usr/lib/nagios/plugins/check_load -w 15,10,5 -c 30,25,20 这让我失望。 我开始怀疑我是否真的了解加载平均值。 我发现-r参数没有被使用,所以加载平均值大于1是正常的,但是这是否表示30-cpu系统的默认值? 我看到这个问题的答案build议使用[CPU的数量]×10关键的5分钟通知(一分钟可能?),这进一步支持使用价值远高于我的计划。 我的意思是,没有看到那里的违约,我会走了 command[check_load]=/usr/lib/nagios/plugins/check_load -r -w 0.9,0.8,0.6 -c 1.0,0.9,0.7 但现在我怀疑。 我知道,互联网上没有人能够告诉我正确的价值观来用于我们的情况,我不指望任何人,如果有人能够告诉我,我是否严重误解负载,需要开始我的侦探,我会非常感激再次工作有用的价值。 值得一提的是,在服务器上,过去的6个月里,我一度偶尔碰到过这样的问题。 平均每个CPU(.8)和.55每CPU(1.1)之间,平均为1分钟。

如何整合RTIR与Nagios

我已经使用RT v 3.8.4安装了RTIR。 我也安装了Nagios来监视我们的一些服务器。 现在,在RTIR的下载网站( http://www.bestpractical.com/rtir/features.html ),它说 “我们已经与ArcSight,Nagios和其他软件build立了整合” 但我找不到任何文件。 即使我发现了一些发送给RTIR的警报的Nagios插件,但是我不确定它是否能够正确填充RTIR事件报告的所有字段,例如受影响服务器的IP地址。 所以我想详细解释一下这个或者可能是一个很好的文档链接会有帮助。

如何监视服务器资源?

我想监视我的服务器的资源,如CPU,内存,磁盘空间和许多其他的东西。 我正在使用Nagios + Centreon来做到这一点,但是我希望对资源的使用有一个历史性的看法,并在图表中显示出更多的数据来更好地pipe理这些资源。 我正在考虑创build一个将存储在每台机器上的脚本,每隔1分钟执行一次,将有关资源的数据发送给我的应用程序,以处理这些数据并将其存储在我的数据库中。 但是我在想Am I re-inventing the wheel? 市场上必须有一些系统可以满足我的要求。 我已经看过Nagios,但是它并不处理我所寻求的所有信息,Centreon也没有。 有谁知道这样的系统? 我的思维方式太激进了吗? 我是新来的基础设施领域,很抱歉,如果这个问题太天真=]

我可以在Nagios组中隐藏“没有匹配服务”的主机吗?

在Nagiosnetworking界面中,我想要让用户访问特定主机上的特定服务:“您可以监视http和您的wordpress安装的状态”。 它在主机和服务视图中运行良好。 我们也有主机组(如“我们的服务器”)和服务组(如“wordpress”),每个组还包含用户无法访问的项目。 在Nagios 3.2.3(Ubuntu 12.04)中,如果用户有权访问该组中的所有主机/服务,则只能看到这样的主机组或服务组。 所以他们看不到“我们的networking服务器”和“wordpress”。 在Nagios 3.4.1(Ubuntu 12.10)中,如果用户有权访问该组中的至less一个项目,则将看到一个组。 但是…现在他们看到该组中的所有主机/服务,除了自己的主机外,其他所有主机都报告“没有匹配的服务”。 我想显示这些组,但在每个组中只有他们实际上有权访问的主机和服务。 我还没有find一种方法来隐藏组列表中的“没有匹配的服务”的其他主机。 完全可以通过configuration吗?

Nagios:检查服务是孤儿吗?

最近我注意到在nagios.log有一些警告: [1366060611] Warning: The check of service 'pt-deadlock-logger' on host 'xx' looks like it was orphaned (results never came back). I'm scheduling an immediate check of the service… 关键问题是:之后,Nagios不再运行任何检查。 作为一个解决方法,我必须设置一个事件处理程序来重新启动Nagios,只要看到这个警告: localhost.cfg define service{ use logfile-service host_name localhost service_description nagios_orphaned check_command check_nagios_orphaned event_handler restart_nagios contact_groups admin } commands.cfg define command { command_name check_nagios_orphaned command_line sudo $USER2$/check_logfiles […]

Nagios / NRPE如何检查下面安装的所有文件系统

我在/ opt / virt / img下有多个安装点,每个安装点都是一个用ext4格式化的LVM逻辑卷,包含正在运行的虚拟机的qcow2磁盘映像。 我想知道这些卷何时被填满。 是否有一些types的check_disk通配符我可以用来保存我不必指定每个? CentOS 6.3 NRPE 2.13

Nagios“排除”指令不排除时间框架

我试图设置我的nagios安装来检查备份时间以外的SMTP服务的可用性。 不幸的是,它似乎忽略了这个configuration: # a timeperiod to check only outside of zimbra's backup hour # (combining the first with the second timeperiod) define timeperiod { timeperiod_name zimbra-backups alias When zimbra is being backed up sunday 04:00-05:00 monday 04:00-05:00 tuesday 04:00-05:00 wednesday 04:00-05:00 thursday 04:00-05:00 friday 04:00-05:00 saturday 04:00-05:00 } define timeperiod { timeperiod_name always-except-zimbra-backups alias 24×7 […]

Windows磁盘空间的Nagios / Icinga检查,错误的-l参数

我在Windows服务器上使用NSClient ++,所有其他检查工作正常。 我使用默认的nt_checkconfiguration,但这些configuration显示为“服务未知” define service {use generic-service host_name winserver service_description C:\ Drive Space check_command check_nt!USEDDISKSPACE!-lc -w 80 -c 90} 有谁知道我在做什么错误或可以build议更好的nt_check?

Nagios核心到Nagios核心通信

有2个与Nagios核心的Linux机箱,我明白,一个沟通他们的方式是使用NSCA插件和安装客户端插件在一个服务器插件在另一个。 也许有一个更简单的方法,如奴隶/主configuration,而不使用NSCA插件。 你能描述可行的方法吗? 真实情况是我们有一台使用GPRS的主机,所以它的IP是dynamic的,所以我们需要发送监控信息到一个静态的IP Nagios服务器。