我正在寻找监控系统的非标准使用的启发,例如nagios,通常用于检查HTTP是否响应等。我很好奇人们如何采取简单的nagios框架并以意想不到的方式运行,所以我可以偷借他们。
我使用nagios来监视1100个节点的高性能计算Linux集群。 Nagios用于检查sshd进程,硬盘SMART状态,Infinibandnetworking状态,共享文件系统和磁盘使用情况。 如果其中任何一个testing失败,节点将被自动从作业调度程序的生产池中取出,以便进行维护。 到目前为止,这个工作还算不错。 在集群上实现Nagios之前,我们有很多抱怨说程序无法启动,或者立即崩溃。 实施后,我们几乎没有抱怨。
我也使用Nagios监视一些Xen dom-U实例。 如果一个dom-U虚拟机崩溃,Nagios会自动重启虚拟机。
我曾经存储过我的Facebook朋友和Twitter追随者名单的副本,如果我没有成功/不关注,就会发送Nagios警报。
不是我的,但这是我听过的最有创意的nagios。 帽子给这个家伙!
你到底什么意思? 我已经写了几个脚本来监视HTTP以外的其他东西。 我甚至创build了一个“URL内容”监视器(这是非常基本的),只是检查一定的文本块,然后如果它报告less于1(0)的文本实例,报告为“down”,如果超过1则报告为up。
写nagios脚本可以用几乎任何语言来完成。
我收集性能数据到rrd数据。 所以我做了一些检查,从最近的检查中读取几个数据点,并寻找趋势的变化 – 这些脚本可能是有用的。 这基本上是一种自动读取graphics的方式。
也许还有一件事人们可以参与:
我在这里完成整个基础设施的备份。 在完成备份之后,我使用一个小脚本检查备份结果,并将备份机器的结果发送到nagios机器。
在nagios服务器上定义了一个被动检查。 或许motst interssting的东西在这里:我定义freshness_threshold 93600(= 26h)和check_command与check_dummy_args!2!'Last backup cycle too long ago' (当然check_freshness与1)。 这样我得到automaticaly通知如果一个备份需要太长时间或没有轮询没有运行。
除了所有的常见和无聊的东西,我有一个监视器,以检查是否是SysAdm日,发送和警报给我所有的用户。
我也有计划实施一个真正的危险警告,并计划在总部监督老板的存在。 但他们不喜欢支付我执行恶作剧
为了控制局面,我听到一个例子,那就是一个设置了nagios检查的人来监视他的论坛是否有不健康的活动,比如大量的未回复的post,以及post之间的平均时间。
在这里,我有一个使用一些USB调制解调器的短信网关。 当然,我监控调制解调器和网关本身。 由于我们所使用的所有SIM卡每个月都有1000条免费短信,所以我通过移动networking运营商的正常Web接口(WWW :: Mechanize的perl sklpt)监控已经发送的短信数量。 如果一个SIM没有更多的免费短信发送,它会被nagios停用 – 如果移动networking运营商的web界面告诉nagios,再有1000个免费短信发送,调制解调器会再次激活。 与nagios-grapher一起,我也有很好的统计数据…
我有许多被动的文件新鲜状态的服务和一个主动的服务来生成文件状态的报告。 主动服务执行一个脚本,它运行一个报告并将结果转储到命令文件中,这样,如果(1)报告运行失败,并且(2)我得到所有运行的文件的结果查询反对。 检查每5分钟运行一次,文件状态每5分钟更新一次。 它工作得非常好。
我使用这个相同的概念来确定文件从外部来源(HTTP,FTP等)。 将具有必要的重复间隔的脚本粘贴到NAGIOS中,该脚本遍历远程资源中的目录,查找我们需要拖动的文件。 如果什么都没发现,提醒,如果发现有问题,请退出确定并完成工作,将拉取请求放到队列中。
而且,除此之外,我也有无数“这个文件多less年”或者“这个目录多大年纪”的检查是愚蠢的,我讨厌它们很多。
我在博客上提出了一些想法:
检查备份文件是否有效
检查网页内容是最新的
我们把Nagios和Solarwinds都作为我们的主要监控系统,最后我是NOC的一员。 太阳风对监视Windows系统非常有用,但是它有点不稳定,所以我们在两个系统之间进行了很多的监视,以便互相监视。 很多在Solarwinds数据库上运行SQL查询的python脚本,以确保它不包含陈旧的数据。
您也可以利用Nagios的“检查脚本”触发机器上的软件更新,以确保我们使用当前版本的任何你想要的定期间隔。
在我们的NFS服务器上,没有一组永久“正确”的挂载,因此文件服务器检查脚本被设置为当导出的文件系统列表发生更改时始终发出警报。 这样,运行这些机器的人总是会在添加或删除某些东西时得到通知。 如果他们当时在机器上工作,他们会忽略警报。 如果不是的话,他们会解决的。 “三angular洲警报”,而不是“警戒状态”的概念,有助于减less我们在这方面的一些通信开销。
我们有24小时NOC猴子观看所有的东西,所以我们也定期收到“电子邮件正在工作”的信息,他们会按计划收到信息,如果没有任何自动化监测发现电子邮件被破坏,他们会手动恐慌。 这种事情很容易设置为“检查脚本”,即使脚本中的OK返回值并不能确定一切正常。 如果您没有备用机构来手动检查,则还可以有一个“发送电子邮件”检查脚本和一个“检查电子邮件”检查脚本一起工作,检查电子邮件脚本以较高的延迟时间提醒。 这并不是一个完整的保证,因为有人在黑莓和Outlook上阅读它,而是覆盖了大多数可能的问题。
很多Nagios的东西真的是特定的网站“看到一个痒,抓痒”的东西。 你只需要一个实际的梦想家。
我可能会尝试写一个纳吉奥斯检查来挖掘当地大坝的核心工程师数据,并警惕这一点。 我现在住在靠近洪水平原的地方尤其重要。