Articles of 监测

使用多个服务组时,Icinga性能问题

我们有一个Icinga安装,有超过3k个主动服务检查。 性能可以接受。 我们已经在使用use_large_installation_tweaks选项。 现在我们已经开始build立一个复杂的服务群体。 服务组使用servicegroup_membersconfiguration选项堆叠在一起。 一旦我们导入额外的服务组性能大幅降低。 对经典UI的任何HTTP请求都需要花费数秒的时间。 在此期间,单个线程会导致大量的CPU负载。 我们想纠正这个问题,以便能够按照计划使用服务组层次结构。 任何想法是什么导致这种负担,以及如何加快在这方面的Icinga? 我们正在使用Icinga 1.11.1

Icinga分布式 – 状态图/可达性问题

我以下面的方式设置分布式Icinga设置。 我们有6个站点,所以我正在监视2个节点上的每个节点以及一个中央服务器。 站点a,b,c由节点1主动监视 站点d,e,f由节点2主动监视 节点1和2将被动检查提交给中央服务器 我遇到的问题是,中央服务器打算成为这里的主服务器,正如人们所期望的那样。 为此,它应该了解整个networking的可达性。 我不能解决的方法是将两个节点的主机连接到状态图上,从而实现可达性。 下面是一个例子: Icinga(中央节点)在站点(a)的vSphere服务器上的Ubuntu VM上运行。 要从中心节点到达站点(d),逻辑path由vSphere服务器,交换机,另一个交换机和路由器组成。 该路由器连接到站点(d)中的另一个路由器,然后切换并最终主机。 我的问题是,我不能在节点2(在这种情况下,站点(d)中的路由器)设置一个主机有一个父节点2上不存在(它的“父”为可达性应该是路由器在网站(a))。 这是非常难以解释的。 有没有解决的办法? 我已经尝试在节点2上再次声明站点(a)路由器,希望重复将被中央服务器忽略,但由节点使用,但无济于事。 我希望我的中央地位图可以被逻辑地查看,而不是每个站点都不恰当地产生Icinga实例。

包括check_command与nagios /冰雹警报

有没有一种方法可以包含通过Nagios或Icinga发出警报时正在使用的check_command。 例: define command {command_name check-x-dc6.x-icmp command_line $ USER1 $ / check_ping -H IP -w 100.0,20%-c 500.0,60%} 基本上,我要找的是这个命令的command_line被包含在nagios / icinga的警报系统中吗?

是否可以在Cloud Watch中设置默认时间段?

我正在使用Amazon Web Service的云监视工具来监视服务器性能。 每当我重新打开我们的各种仪表板时,时间总是设置为最后3个小时。 对于某些仪表板来说,这是一个很好的默认设置,但是对于其他仪表板,我希望它是一个不同的时间段。 更改时间段似乎不会将任何属性保存到URL。 是否可以设置AWS CloudWatch仪表板的默认时间段?

monit:在IF构造中添加NOALERT

在debian jessie上,我已经configuration了HAproxy来检查HAproxy特定的端口转发,如果失败像这样重新启动它: check process haproxy with pidfile /run/haproxy.pid group www-data start program = "/bin/systemctl start haproxy.service" stop program = "/bin/systemctl stop haproxy.service" if failed port 8080 protocol http request "/checker" then restart if failed port 8081 protocol http request "/checker" then restart if failed port 8082 protocol http request "/checker" then restart if 8 restarts […]

监视Windows服务器 – 使用WMI在防火墙后面运行

我拥有100台运行在防火墙后面的Windows机器。 但是我的监控服务器正在networking之外运行[public]。 对于SNMP,我可以在内部networking中放置一台代理服务器,并在防火墙中只启用简单的单一NAT规则。 然后,我将能够使用SNMP监视所有100台Windows机器。 但是我怎么能为WMI做同样的事情? 有没有可用的选项,而不是允许多个规则在防火墙? 既然不能保证只有我们会有100台机器。 未来计数可能会增加一倍。 任何代理应用程序可以实现这一目标

可以configurationGanglia的gmond,以便在Ganglia服务器重新启动时不需要重新启动?

我使用神经节来监视我的计算机群集: ( 图像的来源 ) 当我重新启动Ganglia服务器时,群集中其他服务器上的gmond守护程序将停止向Ganglia服务器发送信息。 我必须跑 sudo /etc/init.d/ganglia-monitor restart 在每台服务器上。 可以configurationGanglia的gmond,以便在Ganglia服务器重新启动时不需要重新启动? 我用: Ganglia Web前端版本3.6.1 Ganglia Web后端(gmetad)版本3.6.0 RRDtool版本1.4.7。 Ubuntu 14.04.3 LTS x64服​​务器

如何在CloudMonix上设置Azure监视以授予最小权限?

有人可以提供一些指导,说明如何在CloudMonix上设置Azure监视的最佳方式,以便我只授予监视特定资源所需的最less量权限? 其中一个select是上传一个发布设置configuration文件,这似乎很方便,但我觉得我好像是“放弃了王国的钥匙”。 有没有一个最佳实践方式来build立这种关系,并pipe理可以访问?

为什么在调整Azure服务器的大小时,新文档会停止守护进程?

在调整Azure资源pipe理器服务器的大小时,除了应用程序和服务器守护程序停止之外,一切进展顺利。 说明应用程序守护进程很简单,但newrelic-sysmond未能启动。 所以我不得不重新安装它。 不幸的是我没有任何日志条目。 为什么会这样呢?

如何设置snmp陷阱阈值

我想通过snmp监视一些防火墙设备。 现在,我可以通过snmp4j获取设备的cpu信息。 但我不知道如何使用SNMP陷阱从设备获取指定的警告和错误消息。 如何设置CPU的门限值,以便根据这个值发送一个陷阱消息。 例如,如果CPU使用率超过70%,则应向pipe理PC发送陷阱消息。 我应该通过命令在每个防火墙设备上设置此阈值还是通过snmp4j来实现? 我很困惑,请给我一些build议。 提前致谢。