我一直是一个nagios用户。
最近,随着服务器机队规模的增长,nagios的警报数量也随之增长。 信噪比已经很低了。 例如。 当一个普通的服务失败时 – 所有使用该服务的负载平衡的networking服务器,因此检查它开始提醒。 与系统警报混合可能从该服务出现在不同的顺序导致大量的噪音。
我可以花很多时间和确保我的nagiosconfiguration是好的,但是它越来越难以pipe理。 我正在寻找一个工具(或Nagios的插件),重复删除和智能抑制警报。 此外,我还希望在问题售票系统中跟踪“问题”/中断情况 – 这样,任何人都可以有一个地方来处理发生问题的情况。 也看看档案。
是的,我可以在一定程度上在Nagios做 – 但它不是很好。
当我看到我发现了大量的工具( http://www.slac.stanford.edu/xorg/nmtf/nmtf-tools.html#public ),但似乎没有人谈论像重复数据删除,问题跟踪和pipe理
我会说你最好的select是与RT或OTRS集成的OpenNMS。 与Nagios不同的是,它是一个完整的SNMPpipe理解决scheme,具有FCAPS(故障/configuration/计费/性能/安全pipe理)的重点。 它们如何处理这些类别中的每一个,都取决于实施者。 对于那些希望从Nagios“升级”的人来说,这是一个很好的解决scheme,并且有一个Cacti服务器可以围绕着类似的方式进行。 性能和故障数据的整合绝对是不可或缺的。 这些文档有点类似于产品的现状,但是我最近一直在亲自做这个工作。
如果您想尝试一下,请按照opennms.org维基上的快速入门说明进行操作,但请停在“发现”处,然后查看新提供的function白皮书 。 这也是一个很好的移植工具。
它提供的基于事件的系统触发警报面板的警报和通知…的通知。 这些可以通过星号,页面,电子邮件,推特等电话。当您或电话通知工作人员被通知时,您可以回复电子邮件的工作“确认”,并通知承认和您的机票更新开始时间等等
通知和警报的分离是您重复数据删除请求的一个重要特性。 根据所发生的情况,您可以通过减less键来减less这些报警,并且只能在阈值上通知(但是仍然会触发所有的报警,以便获得数据)。 有一些先进的相关function,但我没有真正挖掘它。
我想我会build议的第一件事是看依赖关系。 当您的公共服务失败时,使用该公共服务的Web服务器可能被设置为依赖关系,以便您只能获得公共服务的警报。 如果其中一个Web服务器发生故障,并且公共服务仍在响应,则会收到Web服务器closures消息。
通常,您需要设置Nagios,以便交换机或特定断路器后面的所有机器都具有相关性。 当该交换机出现故障时,无需提醒您机架中的所有38台机器都已closures。
如果您遇到振荡,则可以稍微改变升级,以便维护您的服务指标,但是当服务出现故障时,您不会频繁调页。 Nagios的皮瓣检测并不是一项出色的工作,但是这并不是太糟糕。
至于票务,您可以编写一个事件通知脚本,像我们所做的那样,自动导入问题票务系统(客户端获取一些导出的数据作为logging),但是我还没有研究过与现有系统的集成。