Articles of Nagios

使用Nagios被动检查监视NTBackup / Windows Server Backup

我们使用Nagios 3监视了几台(目前大约40台)的服务器,并且在积极检查事件日志和文本日志等问题之后,我们在Nagios服务器上安装了NSCA。 下一步显然是使用send_nsca让备份软件成功运行,而且我也可以在Windows上运行(来自Nagios Exchange ) – BackupExec只有在备份得到validation后才能支持运行命令,与NTBackup和Windows Server Backup类似。 我很高兴使用一个batch file来做到这一点,因为NTBackup似乎没有这个内置的,但我发现有关NTBackup是否正确填充%errorcode%冲突信息( 即只有当备份运行没有错误)。 有没有人有经验或想法让NTBackup正确报告这些信息,还是有一些其他的解决scheme,我们“应该”使用? 问候, 卡尔

如何在不打开防火墙端口的情况下监控远程客户的Windows / Linux PC /服务器?

我为IT服务提供商工作 – 我们在客户网站上支持一系列Windows和Linux服务器/ PC。 我正在寻找一种方法来监视这些设备上的基本信息(例如,磁盘空间使用情况,CPU利用率,正常运行时间等)并将数据收集在一个中央接口中。 我看过Zabbix,在Nagios上读过。 但是,两者似乎都要求我们的客户有一个静态的外部IP地址,并且在客户的防火墙上打开一个特定的端口以允许双向通信。 对于大多数客户来说这是不可能的。 有没有办法configurationZabbix或Nagios从他们的Windows代理发送数据到我们的中央服务器(打开相关的传入端口),而不需要在客户防火墙上打开端口的双向通信? 我尝试了潘多拉FMS,它能够做到这一点,但我不喜欢整体产品。 据我所知,这将需要代理预先configuration他们应该发送的数据,但我不是100%肯定从阅读文档。 在此先感谢您的任何build议, 马特

在远程计算机上使用Nagios监视统计信息的最简单方法是什么?

我想监视几台机器上的RAM和CPU使用情况。 Nagios被部署在一个上。 对没有运行nagios服务器的机器执行这些检查最简单的方法是什么?

ntop vs nagios监测networkingstream量

嗨,我需要监测ntop监测networkingstream量,但我担心,如果它会影响我的服务器性能….我也一直build议使用Nagios,但我不太确定是否有可能获得带宽监视器出来… 那么我应该使用Ntop还是Nagios进行stream量监控? 还是有另一种解决scheme… 谢谢!!

麻烦设置Nagiostesting超时

我有Nagios监视不同服务器上的Oracle安装。 有时候一个特定的testing(检查oracle表空间可以分配下一个盘区)将会以“CRITICAL – 插件在10秒后超时”失败。 我想要做的第一件事是弄清楚需要多长时间才能完成。 如果是11秒,也许我不在乎,而我只是想把时间稍微提高一点。 我试着设置check_by_ssh的超时时间,用于运行实际的命令,如下所示: define command { command_name check_ssh_oracle_health command_line $USER1$/check_by_ssh -H $HOSTADDRESS$ -C "/export/home/nagios/libexec/check_oracle_health –mode=$ARG1$ –environment ORACLE_HOME=/u01/app/oracle/product/11.2.0/dbhome_1 –connect=nagios/<pwd>@<SID> –timeout=15" } 这没有影响; testing仍然错误了,仍然说,10秒后发生(是的,我重新启动Nagios :)。 我可以看到设置超时的唯一的另一个地方是在nagios.cfg; 这似乎太高级(这将影响所有testing),此外,他们当前没有设置为10秒,所以我怀疑这是正确的地方。 任何指针?

亚马逊EC2和nagios可能?

我正在为我的nagios和vpn实例寻找稳定的非本地解决scheme。 有没有办法在亚马逊EC2云上使用这些? 有人能指出我正确的方向吗? 有没有可能在云上运行debian或ubuntu VPS? 我已经看过亚马逊EC2,但它似乎对我来说如此混乱:/

是否有可能让主机依赖Nagios的服务?

我有一个通过Nagios监视的卫星调制解调器,以及现在设置的方式,当调制解调器没有信号时,Nagios将卫星链路另一端的路由器报告为closures。 我想使路由器依赖于检查卫星信号的服务。 我可以做第二个卫星主机,只检查信号,但似乎有点哈克。

使用自定义视图/模板监视工具?

我目前正在寻找像zabbix和icinga这样的开源监控解决scheme。 虽然这两者在监视硬件和软件的通用状态方面似乎非常强大,但是我缺less信息 – 对我来说 – 重要的function,或者我只是阅读他们的文档无法弄清楚它是如何工作的。 我想在这样一个监控工具中集成一些工作队列。 一方面,我需要知道队列的总结信息,如通用可用性等,这些与其中一个工具集成是没有问题的。 另一方面,我想有更多关于队列中发生的事情的详细信息。 我想开发一个插件,它可以返回任意数量的详细数据 – 比如存储在队列中的每个作业的信息 – 我可以填写一个自定义的视图/模板,我可以很好地集成在其中一个监视工具。 zabbix,icinga或任何其他开源监控解决scheme可能吗?

我怎样才能使check_nrpe等待我的远程脚本完成执行?

我有一个Python脚本被用作NRPE的插件。 该脚本通过附加“ps ax | grep进程”执行SSH单线程来检查是否在虚拟机上运行进程。 手动执行脚本时,它按预期方式工作,并返回NRPE的单行输出以及基于进程是否正在运行的状态。 当我尝试运行命令设置来执行此脚本(从我的Nagios服务器)时,我立即得到输出“NRPE:无法读取输出”,但是当我手动运行脚本时,需要大约一秒的时间才能返回输出。 其他命令运行的很好,所以看起来NRPE需要等待一两秒钟输出,而不是立即失败,但是我一直无法find任何解决方法。 有小费吗? PS:虚拟机不能从主机以外的任何地方访问,因此需要使用nrpe插件从主机ssh进入虚拟机来检查进程。

Nagios check_tcp确定,但不能

我遇到了Nagios的问题,特别是check_tcp插件,用于检查Windows服务器上的Citrix连接。 Nagios在版本3.3.1和nagios插件在版本1.4.15(这似乎是最后一个)。 当连接正常时,服务状态正常,状态信息显示“TCP OK”。 但是,当Citrix服务没有响应时,服务的状态仍然正常,状态信息显示“连接被拒绝”,这表明Citrix连接不正常。 还有一件事,当手动启动检查命令时,它将返回0,这说明Web界面上的OK状态,而它必须返回1或其他值来指示错误。 有人已经有同样的问题? 有什么我可以做的纠正这个检查? 提前致谢, 杰里米