其他服务失败时可以定义服务是活动的时间吗? 考虑下面的例子: 2个主机可用:主机A(主)和主机B(备份)。 Nagios服务,监视与主机的活动连接数量: 当连接到主机的连接数> 0时给出OK 当连接到主机的连接数量为0时给出FAILURE 如果安装nagios服务来监视两个主机:HostA和HostB – 这将使我可以为HostA(虽然它是主要的,所有连接正常去它)和失败的HostB(当它是备份,并将不会连接,而HostA是活)。 HostB的nagios服务能否以某种方式依赖于HostA的服务,在HostA服务启动失败的时刻不会发生故障(也可能处于非活动状态)?
我最近在运行AmazonLinux的EC2实例上安装了Nagios(根据我的理解,这基本上是SuSe)。 我使用lighttpd和mod_cgi来为Web界面提供服务。 当我导航到一个页面,而不是得到实际的内容,我得到这个: Nagios Core 3.3.1 版权所有(c)2009-2011 Nagios核心开发团队和社区贡献者 Copyright(c)1999-2009 Ethan Galstad 最后修改date:07-25-2011 许可证:GPL 网站:http://www.nagios.org 用法:/ usr / sbin / nagios [options] 选项: -v,–verify-configvalidation所有configuration数据 -s,–test-scheduling显示预计/推荐的检查计划和其他 基于当前configuration文件的诊断信息。 -x,–dont-verify-paths不检查圆形对象path – 使用注意! -p,–precache-objects Precache对象configuration – 与-v或-s选项一起使用 -u,–use-precached-objects使用预先存储的对象configuration文件 -d,–daemon以守护进程模式启动Nagios,而不是作为前台进程 请访问Nagios网站http://www.nagios.org/查看是否有bug修复 发布,在线文档,常见问题,订阅信息 邮件列表和Nagios的商业支持选项。 这似乎是命令行版本的帮助文档。 这里是我的lighttpd.conf的相关位: alias.url = ( "/nagios/cgi-bin" => "/usr/sbin/nagios", "/nagios" => "/usr/share/nagios/html" ) $HTTP["url"] =~ "^/nagios/cgi-bin" { cgi.assign = […]
我目前在Windows Server上有以下脚本: @echo off set path=%PATH%;C:\UnxUtils\usr\local\wbin cd /DZ:\videos forfiles /M *_1.mkv /D +%date% > C:\mkv.txt >NUL 2>&1 FOR /F "tokens=*" %%B IN ('grep -c _1.mkv c:\mkv.txt') DO SET VIDEOS=%%B if %VIDEOS% GEQ 1 ( echo "BAD VIDEOS!" exit /B 0 ) else ( echo "Videos OK" exit /B 1 ) 我需要Nagios检查脚本退出代码是0还是1,以显示重要的警报或确定。 这可能吗?
我正在寻找性能数据,如页面响应时间与厨师集成。 有没有人有线索是什么起点? 我已经部署了厨师,我已经启用了性能数据收集,但似乎并没有真正收集这些数据。 有没有其他的包,这将有助于绘制页面响应时间,这是适合自动化部署? 它不需要已经为厨师,但有用的东西,或者有什么办法让它与纳吉奥斯? 我已经find了这个没有成功。 非常感谢! 我也想收集负载,networking等我宁愿使用本地代理而不是networking。
在我现在的nagios安装中,我通过NRPE检查是否存在远程备份。 特别是,我的远程nrpe.cfg(在Ubuntu 8.x上)是: command[check_zimbra_backup]=/usr/lib/nagios/plugins/check_file_age -f \\ /backupdir/zimbra_backup-$(date +%a).tar.gz -w 518400 -c 86400 在本地运行命令返回OK: $ sudo su -m nagios -c "/usr/lib/nagios/plugins/check_file_age -f \\ /backupdir/zimbra_backup-$(date +%a).tar.gz -w 518400 -c 86400 " FILE_AGE OK: /backupdir/zimbra_backup-Sun.tar.gz is 47661 seconds old and 10863637475 bytes 但是,我的日志显示关键: nagios: SERVICE NOTIFICATION: zimbra backups;CRITICAL;notify-service-by-email; FILE_AGE CRITICAL: /backupdir/zimbra_backup-Sun.tar.gz is 22373 seconds old and 10863637475 bytes […]
我想我知道答案(不可能) – 但是想看看有没有人有一个聪明的想法,或者我只是错了这个问题。 目标 如果出现以下情况,我们希望我们的class次经理得到服务中断的通知 该服务已经停止了一段时间。 即使问题得到了确认,通知也应该发送。 从Nagios文档: 对于通知: 当且仅当一个或多个升级定义匹配正在发送的当前通知时,通知才会升级。 致谢: 允许您确认指定服务的当前问题。 通过确认当前的问题, 将来的通知(针对相同的服务状态)将被禁用。 如果“sticky”选项设置为一(1),则确认将一直保留,直到服务返回OK状态。 否则,当服务改变状态时,确认将被自动删除。 如果“通知”选项设置为一(1),则会向联系人发送通知,表明当前的服务问题已被确认。 如果“persistent”选项设置为1,与确认关联的注释将在Nagios进程重新启动之后存活。 如果不是,下次Nagios重新启动时,注释将被删除。 我的理解是,如果问题得到了承认,那么就没有进一步的通知了 – 我认为这也适用于升级通知? 我没有看到这个方法。 我们的工作stream程需要L1团队承认这个问题,如果他们能够处理这个问题,并按需要升级。 但是,我们想要build立一个自动的过程来确保这些升级发生。 Nagios是我想要做的事情,但如果不可能,我们可能不得不在票务方面处理这个问题。 谢谢!
我使用Nagios监视大约30台Cisco 2960交换机(check_snmp_load,check_snmp_int)。 我只检查负载和每个交换机的一个或两个主干接口。 由于缺乏设备答案,我得到了很多误报。 我想SNMP的UDP数据包丢失的地方,但我一直无法排除故障。 我在每台交换机上检查了sh int summary ,没有关于丢弃的数据包(IQD和OQD)的信息。 同一个Nagios实例监视数十个其他设备(Linux服务器,iDRAC / iLO,SAN交换机,磁带库等),总是有一切正常。 Nagios和2960s /其他设备之间基础设施连接的唯一区别是2960s通过相当老的FC基础设施连接。 这有可能是FC电缆的问题吗? 我怎样才能检查它(没有购买昂贵的networking测量)? 我已经使用iperf,但没有显示任何问题。 我还能做些什么来解决这个问题? 更新:我在2960s的SNMPconfiguration非常简单: #sh run | include snmp snmp-server community commstr RO
我正在使用NSClient ++ 0.4.1的CheckEventLog进行实时监控。 根据官方文件,有warn和critselect。 warn Expression which raises a warning status. Syntax: warn=ARGUMENT Sample: check_eventlog … warn=ARGUMENT … crit Expression which raises a critical status. Syntax: crit=ARGUMENT Sample: check_eventlog … crit=ARGUMENT … 但是没有解释如何使用这些选项。 ARGUMENT是什么意思? 我可以像filter选项一样使用它:例如: crit=type = warning AND source = 'System' ? 需要一些帮助,谢谢。
我已经安装了OSSIM服务器,我想要检索由远程Nagios服务器生成的警报,以分析它们并执行安全事件的关联。 在实施之前,我想知道正确的做法是什么。 我是否需要configurationNagios才能将警报转发给OSSIM服务器? 那可能吗? 我需要在运行Nagios的机器上安装OSSEC代理吗? 如果是这样,我该如何configurationOSSEC和Nagios? 有没有其他解决scheme? 谢谢! 更新: 它“几乎”起作用,我可以看到NAGIOS警报通过rsyslog正确转发,但是OSSIM将它们视为系统日志的正常日志,因此不会使用NAGIOS插件进行处理。 由于我必须创buildOSSIM规则来关联NAGIOS警报,所以我绝对需要使用NAGIOS插件来对待NAGIOS警报。 下面是我提出的几种可能的解决scheme:开发一种插件来读取系统日志日志,提取来自远程NAGIOS的日志并将它们发送到OSSIM。 为OSSIM开发插件有多复杂? configurationOSSIM并将“embedded”NAGIOSreplace为远程的。 那可能吗? 如果是这样,怎么样? configurationOSSIM,使其可以使用两个NAGIOS,本地和远程。 那可能吗? 如果是这样,怎么样? 通过NSCA协议将远程NAGIOS的警报推送到本地。 这会工作吗? 创build分布式(DNX)NAGIOS系统,并将本地NAGIOSconfiguration为主,将远程configuration为从属。 这会工作吗? 你们有什么感想? 哪一个解决scheme可以工作? 你们有更好的主意吗? 谢谢。
我目前正在看我的Nagios指标,特别是在我的Web服务器上,我突然注意到,有时,我有一个负面的每秒请求数和其他指标,怎么可能? 我虽然每秒请求或每秒连接只能是正值或等于零。 那里发生了什么? 那么负值是否意味着Web服务器通过Keepalive或使用caching数据来重用现有连接? 如果有人能够解释我的这些指标,那就太好了。