我正在专用笔记本电脑上实施一个小型的Nagios实例来监视一些telcom设备。 警报必须通过我们的客户报告工具(如HP OpenView)通过SNMP陷阱发送。 这里没什么特别的。 但是,子系统是移动的,因此并不总是具有连通性来报告警报。 我们依靠3G调制解调器来提供此连接(如果可用)进行报告。 在没有与监控工具连接的情况下,是否有任何意义使Nagios“堆栈”报警 ,以便一旦连接恢复,它就可以传送报警的最后一个状态? 我首先想到了一个“中间人”计划,它将成为Nagios和监控工具之间的桥梁,并处理陷阱。 它将采取所有来自Nagios的snmp陷阱,并且如果没有可用的连接性,将它们插入然后传递最后的陷阱… 但是我不知道这样的事情是否存在,就我所search到的,我什么都没发现。
我已经安装了rkhunter,并希望rootkit检查自动完成警报。 我将如何去整合RKhunter与nagios? 一种情况是,如果find一个root工具包,我会收到关于nagios的一个重要的警报,否则状态是好的。 我也注意到有这个脚本与rkhunter相关,但不知道如何使用它。 任何帮助,将不胜感激。 谢谢 ! ps:我可以做更简单的configuration和编码。 除此之外,我需要一些指导。
在有人build议在这里扫描SCSI总线后,我能够将HP MSA2324sa存储arrays连接到服务器。 现在,我想使用SNMP和OpenNMS监视存储上的以下内容: a)驱动器的健康状况b)PSU状态 但是,我正在努力工作。 SNMP在存储arrays上configuration,但是当我扫描节点时,我仍然没有得到有关磁盘和PSU的任何信息。 这应该自动发布,还是我应该手动添加OpenNMS中的东西?
我有一些Zabbix服务器监视的基础设施(服务器,交换机等),设置为在发生问题时提醒; 到现在为止还挺好。 但是,如果Zabbix服务器本身(或任何底层的下层)遇到问题呢? 一个想法是发布某种心跳,可以通过外部系统进行监控。 我正在考虑使用Zabbix API(可能使用py-zabbix)通过http公开它,并使用像监视器 .us一样的监视器进行监视。 在我冒险之前,我不禁想知道是否已经有了一些简单的东西来掩饰这个问题? 或者这是一个好方法? 与自定义Python脚本相比, monit会是更好的方法吗? (不知道这是否通过了“简单”testing)…
我正在使用Mesos – Marathon进行应用程序部署和可用性,但有时马拉松会冻结。 我试图监视TCP端口,但在冻结端口打开,从而无法检测到故障? 任何build议的监测?
如何重置csysdig中的filter并获取程序启动时存在的默认值?
我试图find一些工具来帮助我监视几件事情。 有什么要求: 在网页上显示结果。 检查文件/文件夹的存在 检查文件/文件夹的大小 可以parsingxml文件 可以有几个状态,例如下午9点以后 Ping工作站/服务器以确保它们处于打开或closures状态 创build每日/每周/每月报告(pdf,html,csv) 显示每日/每周/每月的计划任务 检查特定用户是否在机器上login 检查哪些用户在一台机器上login 我已经看过一些解决scheme,但无法find我想要的。 通常像Nagios这样的工具更专注于服务器,而spiceworks并不那么具体。 在这一点上,我正在使用一个小的PowerShell脚本来做这些项目中的几个,但是在失去更多的时间可能重新发明轮子之前,那里有什么工具? 先谢谢你。
在Nagios中,如何监视在不同用户帐户下运行的Windows服务,而不是在本地系统帐户(以login身份)下运行? 提前致谢。
我正在尝试为下面的场景find一个解决scheme。 我有一个Nagios几百个服务(OMD安装check_mk和其他美味的东西),它们被定义为不同的服务types,所以对于不同的types,我有不同的联系人组,谁会在发生问题时得到警报。 它运行良好,但是如果服务在1小时后处于关键状态,并且已经被确认/评论等,我想要调用一个脚本。 我在参考文档中没有find任何内容。 提前谢谢你的帮助 典型的服务types: define contact{ contact_name level1 ; Short name of user use generic-contact ; Inherit default values from alias Gravity Level1 ; Full name of user email [email protected] ; email for alerting } define contactgroup{ contactgroup_name defcon3 members level1, level2 } define service{ name defcon3-service ; The 'name' of this service […]
我想调整nagios的方式,所有的检查停止(服务不显示,或显示为未知)的任何下降节点。 换句话说,我只想看到一个closures主机的警报,而不是1(下)+ n(每个服务1)。 请注意,我对服务显示/状态感兴趣,不仅在closures通知。 理由:我们使用nagios firefox / chrome插件来监视状态,并且nagios的行为太吵,给出这样的读数(因为每个节点有20个服务): 3 down, 1 unreachable, 4 warnings, 87 critical 这意味着上级节点上的7个关键服务(问题出在服务上)被淹没在一堆红色的服务中,这些红色的服务仅仅是因为他们坐落在一个不可用的节点上。 我想看到的是: 3 down, 1 unreachable, 80 unknown, 4 warnings, 7 critical 甚至 3 down, 1 unreachable, 4 warnings, 7 critical 我查看了服务依赖关系,但是我没有办法描述:“在主机检查状态下在活动主机依赖关系上创build所有服务”。 我发现这里讨论的问题,其中一个参与者认为这是一个nagios错误,并在这里其中一个参与者认为这是“devise”。 事实上,我只是对效果感兴趣,更不用说devise理念。 请注意,这个nagios正在检查数百个节点,所以解决scheme的维护性也很重要。 TIA和欢呼声。