是否有一个良好的监控，警报工具与故障票务系统+重复数据删除和智能抑制警报？

我一直是一个nagios用户。

最近，随着服务器机队规模的增长，nagios的警报数量也随之增长。信噪比已经很低了。例如。当一个普通的服务失败时 – 所有使用该服务的负载平衡的networking服务器，因此检查它开始提醒。与系统警报混合可能从该服务出现在不同的顺序导致大量的噪音。

我可以花很多时间和确保我的nagiosconfiguration是好的，但是它越来越难以pipe理。我正在寻找一个工具（或Nagios的插件），重复删除和智能抑制警报。此外，我还希望在问题售票系统中跟踪“问题”/中断情况 – 这样，任何人都可以有一个地方来处理发生问题的情况。也看看档案。

是的，我可以在一定程度上在Nagios做 – 但它不是很好。

当我看到我发现了大量的工具（ http://www.slac.stanford.edu/xorg/nmtf/nmtf-tools.html#public ），但似乎没有人谈论像重复数据删除，问题跟踪和pipe理

我会说你最好的select是与RT或OTRS集成的OpenNMS。与Nagios不同的是，它是一个完整的SNMPpipe理解决scheme，具有FCAPS（故障/configuration/计费/性能/安全pipe理）的重点。它们如何处理这些类别中的每一个，都取决于实施者。对于那些希望从Nagios“升级”的人来说，这是一个很好的解决scheme，并且有一个Cacti服务器可以围绕着类似的方式进行。性能和故障数据的整合绝对是不可或缺的。这些文档有点类似于产品的现状，但是我最近一直在亲自做这个工作。

如果您想尝试一下，请按照opennms.org维基上的快速入门说明进行操作，但请停在“发现”处，然后查看新提供的function白皮书。这也是一个很好的移植工具。

它提供的基于事件的系统触发警报面板的警报和通知…的通知。这些可以通过星号，页面，电子邮件，推特等电话。当您或电话通知工作人员被通知时，您可以回复电子邮件的工作“确认”，并通知承认和您的机票更新开始时间等等

通知和警报的分离是您重复数据删除请求的一个重要特性。根据所发生的情况，您可以通过减less键来减less这些报警，并且只能在阈值上通知（但是仍然会触发所有的报警，以便获得数据）。有一些先进的相关function，但我没有真正挖掘它。

我想我会build议的第一件事是看依赖关系。当您的公共服务失败时，使用该公共服务的Web服务器可能被设置为依赖关系，以便您只能获得公共服务的警报。如果其中一个Web服务器发生故障，并且公共服务仍在响应，则会收到Web服务器closures消息。

通常，您需要设置Nagios，以便交换机或特定断路器后面的所有机器都具有相关性。当该交换机出现故障时，无需提醒您机架中的所有38台机器都已closures。

如果您遇到振荡，则可以稍微改变升级，以便维护您的服务指标，但是当服务出现故障时，您不会频繁调页。 Nagios的皮瓣检测并不是一项出色的工作，但是这并不是太糟糕。

至于票务，您可以编写一个事件通知脚本，像我们所做的那样，自动导入问题票务系统（客户端获取一些导出的数据作为logging），但是我还没有研究过与现有系统的集成。