系统监控服务器 Gind.cn

没有连接到HP OVO时，使Nagios堆栈报警

我正在专用笔记本电脑上实施一个小型的Nagios实例来监视一些telcom设备。警报必须通过我们的客户报告工具（如HP OpenView）通过SNMP陷阱发送。这里没什么特别的。但是，子系统是移动的，因此并不总是具有连通性来报告警报。我们依靠3G调制解调器来提供此连接（如果可用）进行报告。在没有与监控工具连接的情况下，是否有任何意义使Nagios“堆栈”报警，以便一旦连接恢复，它就可以传送报警的最后一个状态？我首先想到了一个“中间人”计划，它将成为Nagios和监控工具之间的桥梁，并处理陷阱。它将采取所有来自Nagios的snmp陷阱，并且如果没有可用的连接性，将它们插入然后传递最后的陷阱… 但是我不知道这样的事情是否存在，就我所search到的，我什么都没发现。

与RKhunter一起使用Nagios

我已经安装了rkhunter，并希望rootkit检查自动完成警报。我将如何去整合RKhunter与nagios？一种情况是，如果find一个root工具包，我会收到关于nagios的一个重要的警报，否则状态是好的。我也注意到有这个脚本与rkhunter相关，但不知道如何使用它。任何帮助，将不胜感激。谢谢！ ps：我可以做更简单的configuration和编码。除此之外，我需要一些指导。

使用OpenNMS监视HP MSA2324sa

在有人build议在这里扫描SCSI总线后，我能够将HP MSA2324sa存储arrays连接到服务器。现在，我想使用SNMP和OpenNMS监视存储上的以下内容： a）驱动器的健康状况b）PSU状态但是，我正在努力工作。 SNMP在存储arrays上configuration，但是当我扫描节点时，我仍然没有得到有关磁盘和PSU的任何信息。这应该自动发布，还是我应该手动添加OpenNMS中的东西？

从外部监视zabbix服务器（本身）

我有一些Zabbix服务器监视的基础设施（服务器，交换机等），设置为在发生问题时提醒; 到现在为止还挺好。但是，如果Zabbix服务器本身（或任何底层的下层）遇到问题呢？一个想法是发布某种心跳，可以通过外部系统进行监控。我正在考虑使用Zabbix API（可能使用py-zabbix）通过http公开它，并使用像监视器 .us一样的监视器进行监视。在我冒险之前，我不禁想知道是否已经有了一些简单的东西来掩饰这个问题？或者这是一个好方法？与自定义Python脚本相比， monit会是更好的方法吗？（不知道这是否通过了“简单”testing）…

监控Marathon框架的可用性

我正在使用Mesos – Marathon进行应用程序部署和可用性，但有时马拉松会冻结。我试图监视TCP端口，但在冻结端口打开，从而无法检测到故障？任何build议的监测？

清除csysdig中的filter

如何重置csysdig中的filter并获取程序启动时存在的默认值？

工具来监视文件大小，文件存在，parsingxml等

我试图find一些工具来帮助我监视几件事情。有什么要求：在网页上显示结果。检查文件/文件夹的存在检查文件/文件夹的大小可以parsingxml文件可以有几个状态，例如下午9点以后 Ping工作站/服务器以确保它们处于打开或closures状态创build每日/每周/每月报告（pdf，html，csv）显示每日/每周/每月的计划任务检查特定用户是否在机器上login 检查哪些用户在一台机器上login 我已经看过一些解决scheme，但无法find我想要的。通常像Nagios这样的工具更专注于服务器，而spiceworks并不那么具体。在这一点上，我正在使用一个小的PowerShell脚本来做这些项目中的几个，但是在失去更多的时间可能重新发明轮子之前，那里有什么工具？先谢谢你。

监视Windows服务 – Nagios

在Nagios中，如何监视在不同用户帐户下运行的Windows服务，而不是在本地系统帐户（以login身份）下运行？提前致谢。

在Nagios / OMD中一个小时后联系小组进行警报

我正在尝试为下面的场景find一个解决scheme。我有一个Nagios几百个服务（OMD安装check_mk和其他美味的东西），它们被定义为不同的服务types，所以对于不同的types，我有不同的联系人组，谁会在发生问题时得到警报。它运行良好，但是如果服务在1小时后处于关键状态，并且已经被确认/评论等，我想要调用一个脚本。我在参考文档中没有find任何内容。提前谢谢你的帮助典型的服务types： define contact{ contact_name level1 ; Short name of user use generic-contact ; Inherit default values from alias Gravity Level1 ; Full name of user email [email protected] ; email for alerting } define contactgroup{ contactgroup_name defcon3 members level1, level2 } define service{ name defcon3-service ; The 'name' of this service […]

Nagios：closures在主机上的服务检查/显示

我想调整nagios的方式，所有的检查停止（服务不显示，或显示为未知）的任何下降节点。换句话说，我只想看到一个closures主机的警报，而不是1（下）+ n（每个服务1）。请注意，我对服务显示/状态感兴趣，不仅在closures通知。理由：我们使用nagios firefox / chrome插件来监视状态，并且nagios的行为太吵，给出这样的读数（因为每个节点有20个服务）： 3 down, 1 unreachable, 4 warnings, 87 critical 这意味着上级节点上的7个关键服务（问题出在服务上）被淹没在一堆红色的服务中，这些红色的服务仅仅是因为他们坐落在一个不可用的节点上。我想看到的是： 3 down, 1 unreachable, 80 unknown, 4 warnings, 7 critical 甚至 3 down, 1 unreachable, 4 warnings, 7 critical 我查看了服务依赖关系，但是我没有办法描述：“在主机检查状态下在活动主机依赖关系上创build所有服务”。我发现这里讨论的问题，其中一个参与者认为这是一个nagios错误，并在这里其中一个参与者认为这是“devise”。事实上，我只是对效果感兴趣，更不用说devise理念。请注意，这个nagios正在检查数百个节点，所以解决scheme的维护性也很重要。 TIA和欢呼声。

Intereting Posts

关机button是否可以从开始菜单中删除？ Nginx服务器主机头server_name 高stream量websocket / haproxy调优 LACP有2个网卡，当任何一个出现故障时，两个网卡都不能运行（VPS云）网站宕机，htacces修改，我认为由于高stream量无人参与安装的Mac OS X build筑工人用混凝土和矿物粉尘填满我的SAN makewhatis和logrotate cron工作时间表 nfs4 id->用户端不工作直接在httpd.conf中设置WordPress永久链接？我怎样才能复制网站，脚本与从Linux到Linux的默认权限如何清除Linux服务器（RHEL 5）中的所有caching文件在CentOS中用于GCM命令的iptablesconfiguration 用utf8编码执行一个bash脚本的问题我如何在Ubuntu 14.04 LTS中升级apache？

Articles of 系统监控