Articles of zabbix

recv还没有准备好(11:资源暂时不可用))(nginx / 1.1.19,supervisorctl,gunicorn)

我有Ubuntu 12.04.5 LTS,django(supervisorctl,gunicorn)的网站。 它工作1年没有问题,但今天我的zabbix服务器发送有关警报(每3-7分钟)关于超时(1-2秒)的消息。 我为nginx运行debugging模式: 2015/08/26 06:24:09 [debug] 24236#0: *214786 http upstream temp fd: -1 2015/08/26 06:24:09 [debug] 24236#0: *214786 http output filter "/management/verify/[email protected]&app_version=4.1&warehouse=131&only_hash=0&pin_number=" 2015/08/26 06:24:09 [debug] 24236#0: *214786 http copy filter: "/management/verify/[email protected]&app_version=4.1&warehouse=131&only_hash=0&pin_number=" 2015/08/26 06:24:09 [debug] 24236#0: *214786 image filter 2015/08/26 06:24:09 [debug] 24236#0: *214786 xslt filter body 2015/08/26 06:24:09 [debug] 24236#0: *214786 http postpone […]

Zabbix:监控文本字段的变化

我正在寻找一种方法来查找文本值是否在一定的时间内没有改变,如果没有,则抛出一个触发器。 例如,如果我正在从文件中读取值“foo”,并且在8小时内仍然是“foo”,我想触发警报。 但是,我不能使用{app_name:text[item].delta(288000)}=0 。 有没有一种新颖的方式来做到这一点? 编辑: 好的,有人问我们要解决的根本问题,所以这就是我们所得到的。 我们正在Amazon EC2上运行一个基于CloudFormation和Chef的dynamic加/减环境。 有时,厨师客户端因为我们的apt cacher服务器数量不确定而卡住了。 当发生这种情况时,我们的开发环境将停止获得与主厨共同部署的新软件,如果时间太长,我们的“节点哨兵”将会把主机从机器中剔除,因为他们没有检查太久,是不存在的实例。 在每个Chef客户端运行时,将编写一个文件,其中包含实例节点名称的JSON,主厨客户端运行的GUID,运行开始时间和运行停止时间。 我把这些值作为文本进入Zabbix,并正在寻找一种方法,看看它们是否在几个小时内不会改变,因此我可以触发它。 这个JSON看起来像: { "node_name": "testnode.domain.local", "run_id": "4aa6c9d6-f97a-494a-9a4f-d72fc69e341b", "start_time": "2015-09-03 16:57:08 +0000", "end_time": "2015-09-03 16:57:47 +0000" } 有用吗? 目前还不清楚? 完全颠覆? 将时间戳转换为序列date并使用它进行比较?

Zabbix的UserParameter返回两个值,没有一个是正确的

我创build了用户参数测量在iscsi lun上的写入速度,如下所示: UserParameter=write.perf.mon[*], mytime="$(time -p (dd if=/dev/zero of=$1 oflag=direct bs=4k count=1000) 2>&1 1>/dev/null )"; echo "$mytime" | grep real | awk '{print $$2}' 如果从shell运行正确的值,它会产生以下输出: 2.78 当它由zabbix代理执行时,我可以在日志中看到正确的命令,但它显示以下内容: 7770:20150921:123734.823 Run remote command [ mytime="$(time -p (dd if=/dev/zero of=path_to_file oflag=direct bs=4k count=1000) 2>&1 1>/dev/null )"; echo "$mytime" | grep real | awk '{print $2}'] Result [4] [0.00]… 而zabbix收集零。 […]

计算Zabbix项目的总和

我想监视一个交换机(48端口)。 使用SNMP和LDD,我可以有每个端口的带宽,但我想要所有项目的总和(如ifOutOctets(*)) 有可能吗? 怎么样 ?

通过IPMI访问IML

我试图通过IPMI(iLO)访问集成pipe理日志(IML)。 是否有可能通过IPMI获得IML? 我从内置的IPMI / iLO传感器获取指标没有问题,只是我找不到通过IPMI获取IML的方法。

Zabbix从Cisco SG200交换机下降SNMP

我正在使用Zabbix 3.0来监视我们的主交换机,其中来自防火墙的端口以及其他端口显示似乎是丢弃的发送或接收。 人们可以得出结论,如果这个stream量从交换机上掉下来的话可能会被过度使用,那么在所有的端口上这些stream量都是一致的,但事实并非如此。 非常间歇地,我们确实有一个虚拟机上的外部通信问题,从一个客户端下载数据,但是这个症状和Zabbix读取的数据之间的时间差,我可以说我们的下载源可能会遇到问题,或者但当然我们的互联网服务供应商否认任何中断,并表示在这段时间内我们的下降趋势是稳定的。 第一张图片显示从ASA切换到传入端口上的丢弃。 注意:从4:55 AM-5:01AM,它不显示任何输出,值应该是直线0.同时,随机端口也显示这个损失,但是从上午5:34 AM-5:41AMinput显示丢失ASA到交换机,但是相同的随机端口显示没有损失。 最后,从运行Zabbix客户端的虚拟机,它显示通信永远不会closures。 此图显示了随机丢失,并且来自Cisco SG200-50交换机上的一个随机端口。 一个随机的虚拟机在这个时间段内完全没有损失。 思科的支持是困惑的,因为如果它是一个坏的开关,他们认为这将是一个可识别的模式,但不排除可能的CPU高峰在交换机发生这种情况,因为我被告知,不能从交换机拉数据,因为它一个“小型企业级”交换机。 其他注意事项:自从Hyper-V主机configuration以来,端口未在LAG中configurationNIC组configuration为在Windows Server 2012 R2主机上以独立于交换机模式进行configuration。 下面是使用运行Get-NetLbfoTeam cmdlet的powershell的configuration截图。 在同一时间内,我看不到通过VPN隧道到监控无线接入点的远程站点的通信,并且Zabbix服务器必须通过与ASA连接的交换机上的端口进行通信才能到达WAP。 当我问到思科是否应该改变这个交换机是否具有LAGfunction时,他们表示应该不会对Zabbix中可能的数据丢失产生影响。 我查看了各种Zabbix论坛,但无法find任何尝试更改,但我没有调整服务器更多的并发连接,可能会消除一些可能会导致读数非常大的Zabbix的东西。 在Zabbix中,我目前正在监视不到十几个节点。 我相信虚拟机在磁盘I / O较低的未充分利用的主机上具有足够的4核和4GB内存。 当我查看Zabbix服务器利用率时,它显示的利用率非常低,下面是Zabbix 3.0服务器的简要快照。 注意:由于两个原因,我正在运行设备,而不是从头开始构build。 一个只是为了testing驱动产品,而另外两个是被监控的物品数量较less,所以应该没有问题监控的5个项目。 CPU is idle 99.4% of the time CPU spikes are less than 1% Memory usage is roughly 70-75% Network traffic us usually below 50Kbps with […]

zabbix 3.0 + pg_monz 2.0 + PostgreSQLstream式复制

我在CentOS 7.2上有一个Zabbix 3.0实例,我添加了pg_monz扩展来监视我的PostgreSQLstream式复制。 我目前在我的Zabbix界面有这个; DB1 host_groups PostgreSQL的 Linux服务器 模板 模板OS Linux 模板应用PostgreSQL SR 模板应用程序PostgreSQL SR集群 DB2 host_groups; PostgreSQL的 Linux服务器 模板; 模板OS Linux 模板应用PostgreSQL SR 在“最新数据”选项卡上,过滤到host_group PostgreSQL DB1 pg.cluster.status 所有项目变灰 DB2 pg.cluster.status 主服务器数量1 正在运行的PostgreSQL服务器的数量1 备用服务器数量0 有人可以澄清设置监控stream复制,我敢肯定,我已经在我的模板混合了东西。 我期望DB1显示一个主要的,两个运行postgresql服务器和一个备用服务器。 这个文档对于pg_monz有点含糊。

Zabbix自动删除无法访问的主机

我需要在zabbix中自动删除我的无法访问/停止的主机。 所有主机都使用活动代理进行监控,因此networking发现自动删除在我的情况下不方便/有用。 我已经写了一个小python脚本来使用zabbix-api从zabbix中删除/删除主机。 但是我想要实现的是如下: 1:如果主机无法连接超过2小时,请find所有主机 2:标记其状态并更新待删除主机的列表 3:24小时后删除所有这些主机。 如果在第二步不可能的情况下,我现在对第一步和第三步非常满意。 我无法findzabbix的正确api响应,以确定主机已停机或无法访问超过一个小时或xyz时间。 PS:我已经提到了URL1和URL2,但仍然没有运气。

Zabbix:如何实现有效项目的1秒间隔?

它甚至可能/推荐? 我们正在尝试设置几个configuration为1秒间隔的活动项目。 然而,这些项目没有保持期望的时间间隔,而是我们每约30秒收集一个值(如相应的图表所示)。 在客户端用一个简单的“echo 1”作为用户参数来testing上面的内容,应该每隔1秒发送一次,而不是延迟。 我们在服务器上部署了一个客户端,其中一个项目的configuration方式与上面相同,每秒都会成功收集一个项目。 我们的Zabbix设置是比较新的,因此底层的MySQL数据库是相当小的,我们没有那么多的客户端/项目。 服务器在Linux VM中运行,而客户机在专用Linux主机上(不在本地networking上)运行。 我们查看了服务器/客户端上的configuration文件,但没有看到什么可以帮助我们实现这一点(除了添加更多的捕获器)。 这似乎不是一个连接问题,因为客户端缓冲区应该克服这个问题。 可能是这种行为的原因是什么? 如何find瓶颈? Zabbix服务器统计数据可以看到什么? 硬件是最重要的因素吗? MySQL优化是强制性的吗? 不能发布更多的链接,所以这里是我们看的东西: Zabbix参考手册中的性能调整页面 阿列克谢Vladishev zabbix性能调整幻灯片(在幻灯片上find)

如何configuration端口访问限制zabbix代理和服务器使用防火墙?

我有我的代理/服务器configuration正确,我知道这是因为它工作。 我只是对代理端的防火墙进行了更改,限制了端口10050的访问,但允许服务器像这样访问: $ firewall-cmd –new-zone=zabbix $ firewall-cmd –reload $ firewall-cmd –get-zones $ firewall-cmd –permanent –zone=zabbix –add-rich-rule=' rule family="ipv4" source address="<<server_ip>>" port protocol="tcp" port="10050" accept' $ firewall-cmd –reload $ firewall-cmd –zone=zmonitor –list-all 现在有一个沟通的问题。 代理日志报告如下: no active checks on server [<<server_ip>>:10051]: host [<<hostname>>.local] not found 服务器报告如下: cannot send list of active checks to "<<agent_ip>>": host [<<hostname>>.local] not […]