Nagios（或类似的工具）具有更多的警戒级别？

我正在监视并警示一些networking应用程序中的一些业务指标（综合浏览量，注册等）。我们已经使用Nagios和Munin进行各种各样的服务器监控和警报事件，这就是我开始使用Nagios和Munin的原因。

我可以为Nagios编写自定义插件，用于计算我们的统计/控制图表，并检查这些指标何时低于预期水平（警告和关键），但是我也想知道这些指标何时高于预期水平（更多注册 – 我们做对了！）。

有没有办法在Nagios或Munin中创build自定义警报级别，以适应这些积极的警报，还是有另一种工具，我应该看着解决这种情况？理想的工具是：

包括更多的警报级别（严重，警告，确定，改进，尖峰）
请允许我查看有关生成警报的报告的附加数据（度量标准和观测值的期望值）
（很高兴有）允许我绘制指标的历史logging，以便在收到警报后可以观察观察结果

许多NAGIOS插件已经按照您的要求进行了操作，并且允许将WARNING和CRITICAL阈值指定为一个范围，当该值在该范围外（或者可选地在该范围内）时提醒。例如，从/usr/lib/nagios/plugins/check_procs -h ：

 [...] Usage: check_procs -w <range> -c <range> [-m metric] [-s state] [-p ppid] [-u user] [-r rss] [-z vsz] [-P %cpu] [-a argument-array] [-C command] [-t timeout] [-v] [...] -w, --warning=RANGE Generate warning state if metric is outside this range -c, --critical=RANGE Generate critical state if metric is outside this range [...] RANGEs are specified 'min:max' or 'min:' or ':max' (or 'max'). If specified 'max:min', a warning status will be generated if the count is inside the specified range [...]

所以这个插件已经有这样的想法：“如果X比C小或者小于B，X是有问题的，如果小于A或者大于D，这是一个即将发生的灾难”（对于A <B <C <D）。这对我来说听起来非常像你所要求的，并且不需要对NAGIOS进行重新devise（OK / WARN / CRIT概念被embedded到其中）。

我使用nagios来提醒和收集指标。很多时候，我发送数据到神经节的工具（通过gmetric）也发送警报到nagios（通过send_nsca，aka被动警报）。如果你正确地编写你的工具，它可以检测从上一个时期到当前时期的变化。例如，您可以通过这种方式检测某些指标的变化。现在的平均响应时间是比上一次高出X％吗？队列大小增加/减less了X％多less？

我用了一段时间，但没有神经节的粒度。而且，在神经节中创build一个新的度量标准就像调用gmetric一样简单。 BAM，你有一个新的图表。我还发现将最后一次部署时间显示在我们的度量图上是很有用的（只是显示部署时间的垂直线）。通过这种方式，您可以更好地直观地了解正在进行的操作以及何时进行操作。