可能重复: 如何configurationNagios手机/短信提醒? 有没有人有任何build议短信网关使用Nagios? 我正在寻找从我们现有的Nagios服务器设置SMS警报。
我正在开发一个web应用程序(django / gunicorn / nginx),需要根据负载进行扩展。 该应用程序将托pipe在Linode上,所以我打算使用StackScripts(也许是Puppet)来启动Web服务器的新实例,然后将它们放在NodeBalancer之后。 看起来好像Nagios和Munin将允许我监视负载,在服务器处于压力下时发出警报,并查看一些漂亮的图表。 但是这些应用程序是否也允许我自动部署新的Linode? 看起来好像我应该能够编写一个启动StackScript的Nagios事件处理程序。 但我不确定是否可以创build一个可以确定何时启动新实例的检查。 是否可以设置一个警报,将过去的测量考虑在内? 我的标准将基于机器负载多长时间,而不是瞬间读数。 我不担心如果Web服务器接近一个支票的最大使用量,但我可能是如果保持两个或更多的方式。 我错过了一件? 我认为这是可能的插件,使用Nagios / Munin已经可用的数据。 但也许我需要编写一个单独的应用程序或脚本,存储以前的检查值,并进行比较。 任何人都可以指出我使用Nagios来扩展应用程序的例子吗? 我曾经看过一些幻灯片,人们讨论这种方式(通常在EC2上),但没有具体的例子。 谢谢。
我正在编写一个Nagios插件来监视某个存储资源利用率的趋势(例如逐渐增加是好的,但资源使用量的瞬时/突然增加或减less可能表明存在问题)。 值得一提的是,它正在审查自定义cacti数据源/模板生成的RRD文件中的最后N个条目。 什么是“正确”的方式来处理Nagios的通知configuration/实现呢? 问题是这个插件会在一个投票期间作为警告/批评而退出,但是在下一个投票期间,如果我查看3个投票期的数据,那么这个插件会被罚款(或3个投票周期之后)。 我想这个问题是:我应该写一个X轮询周期的警报,或者我应该find一种方法来写它,以便手动干预来清除它(例如login到监视服务器或点击一个URL来运行提交被动结果的脚本)? 你的意见是赞赏,如果你有任何提示如何实施后者,我向他们开放(我可以想到几种方法来实现它) 编辑:下面的dunxd的“答案”帮助陈述我正在寻找更简洁。 我很现实地寻求在Nagios中实施/实施“粘性”警报的最佳方法。 我已经看到它与其他系统完成,但到目前为止还没有。
我们有一个安装程序,其中有分布在多个站点上运行的Nagios,并将其数据均衡到主Nagios服务器。 问题是无论主机或服务中是否有状态变化,都会将数据发送回主Nagios服务器。 是否可以configuration从属Nagios每5秒检查一次服务/主机,但只有在状态发生变化时才发回数据。 目前它是通过Obsess Over Hosts / Service来实现的,它始终运行将会均衡的命令。 Nagios版本是3 我不是pipe理员,而是开发人员,所以我不知道确切的术语,所以请和我一起裸照。
最近,在我的nagios 3.2.3安装(CentOS5,监控~300台主机,1150个服务)时,偶尔会报告在50-60个主机上高丢包率。 问题是假的。 手动运行ping(或其自己的check_ping二进制文件)发现没有任何受影响的主机的错误。 目前唯一可能的治疗方法是: 手动运行所有的检查(他们会成功,但可能会在下一次检查时再次执行) 承认并等待问题消失(可能需要几个我们的) 我怀疑(除了单独的重新安排的检查成功之外没有其他的原因),问题可能在于所有的检查是一起进行大规模的计划 – 在这种情况下,在计划中引入一些抖动(如何?)可能会有所帮助。 或者它可能是完全不同的东西。 想法,任何人? 编辑: 对build设性辩论感兴趣的人(而不是点数评分)。 我不想测量数据包丢失。 在这种情况下,networking性能不是我关心的问题,如果是这样的话,将会用适当的工具来调查。 NAGIOS(不知情)主要用于检查主机服务并生成警报。 当它开始产生大量的腥警报,因此非常烦人。 我99.9%的正面认为,这个问题要么是由于: 一些Nagios / Nagios插件的障碍 一些系统(内存 – CPU – I / O – networking堆栈)的问题 可能是由nagios调度程序发送的请求突发引起的。 数据包丢失率都在50%以上 – 如果它们是真的,我们的手机就会融化。 到目前为止,我没有(2)的证据,所以我正在寻找(1)中的“现有技术”。 我的想法可能是错误的,但是,如果我必须达到wireshark或类似的,一个build议什么寻找将不胜感激。
我是SNMP轮询路由器并检查接口上的错误的数量。 由于SNMP计数器无法在设备上清除,因此我将临时文件中收到的最后一个值存储起来。 如果当前的调查价值从上一次增加,我想设置一个警报。 显然在第二次迭代之后,最后看到的值将成为当前值。 出于这个原因,我希望能够保持警报,直到确认,然后返回到OK状态。 例如,假设我得到这些值(每30秒调查一次): 10,10,30,30,30,…. 由于没有三angular洲,所以在第一和第二值之间显然没有报警。 在第二和第三之间我们还是很好的。 三到四之间有一个三angular洲,需要设置警报。 现在四到五之间没有三angular洲,但我需要保持从上次的警报(因为它是没有意义的,设置一个警报30秒)。
我想configurationNagios从周一到周五每6小时发送一次页面,但周六和周日每24小时只发一次。 如何让一组pipe理员拥有两个不同的寻呼频率,我正在困难的思考。
我在一段时间内禁用了通知,如下所示: define timeperiod{ timeperiod_name test alias Except test Hours monday 08:20-08:15 [etc..] sunday 08:20-08:15 } 所以如果一个服务在08:15-08:20之间下降,我不会通过邮件得到通知。 今天刚发生的是,该服务还停留了2个小时,而且我正在期待在notification_period回来的时候收到一封电子邮件。 如果告诉Nagios发送通知电子邮件,如果它符合通知时间,并且服务状态仍然很重要,我该如何告诉Nagios? 编辑: 我的第一个方法是不正确的,所以我遵循了一个build议,并使用排除期如下所示: define timeperiod{ timeperiod_name test2 alias test2 use 24×7 exclude test } define timeperiod{ timeperiod_name test alias Except test Hours thursday 12:15-12:25 # it was thursday when I tested } 和服务检查: define service{ use generic-service service_description […]
我的问题是如何监控Nagios,ESX中运行的多个虚拟主机的性能和可用性(机器停止)。 我发现的所有插件都是针对3.x API,运行命令或SNMP,但这些方法都不适用于Vmware ESX 5.0
本周一直在更新一些小组中的一些服务器。 CentOS 6.x和RHEL 5.x的混合。 在每种情况下,他们都得到一个更新的srvadmin-*包,随后popup错误(SNMP) OpenManage is not installed or is not working correctly nagios (SNMP) OpenManage is not installed or is not working correctly 。 有没有人看过这个? 看来这个插件正在使用这个函数来testingSNMP是否工作: # # Checking if SNMP works by probing for "chassisModelName", which all # servers should have # sub snmp_check { my $chassisModelName = '1.3.6.1.4.1.674.10892.1.300.10.1.9.1'; SNMP正在我的系统上工作(使用SNMPWalk进行testing),但是这个值不再存在。 我应该寻找“所有服务器应该有的”不同的价值吗? 试图找出这个值到哪里去了? […]