Nagios(或类似的工具)具有更多的警戒级别?

我正在监视并警示一些networking应用程序中的一些业务指标(综合浏览量,注册等)。 我们已经使用Nagios和Munin进行各种各样的服务器监控和警报事件,这就是我开始使用Nagios和Munin的原因。

我可以为Nagios编写自定义插件,用于计算我们的统计/控制图表,并检查这些指标何时低于预期水平(警告和关键),但是我也想知道这些指标何时高于预期水平(更多注册 – 我们做对了!)。

有没有办法在Nagios或Munin中创build自定义警报级别,以适应这些积极的警报,还是有另一种工具,我应该看着解决这种情况? 理想的工具是:

  1. 包括更多的警报级别(严重,警告,确定,改进,尖峰)
  2. 请允许我查看有关生成警报的报告的附加数据(度量标准和观测值的期望值)
  3. (很高兴有)允许我绘制指标的历史logging,以便在收到警报后可以观察观察结果

许多NAGIOS插件已经按照您的要求进行了操作,并且允许将WARNING和CRITICAL阈值指定为一个范围,当该值在该范围外(或者可选地在该范围内)时提醒。 例如,从/usr/lib/nagios/plugins/check_procs -h

 [...] Usage: check_procs -w <range> -c <range> [-m metric] [-s state] [-p ppid] [-u user] [-r rss] [-z vsz] [-P %cpu] [-a argument-array] [-C command] [-t timeout] [-v] [...] -w, --warning=RANGE Generate warning state if metric is outside this range -c, --critical=RANGE Generate critical state if metric is outside this range [...] RANGEs are specified 'min:max' or 'min:' or ':max' (or 'max'). If specified 'max:min', a warning status will be generated if the count is inside the specified range [...] 

所以这个插件已经有这样的想法:“如果X比C小或者小于B,X是有问题的,如果小于A或者大于D,这是一个即将发生的灾难”(对于A <B <C <D)。 这对我来说听起来非常像你所要求的,并且不需要对NAGIOS进行重新devise(OK / WARN / CRIT概念被embedded到其中)。

我使用nagios来提醒和收集指标。 很多时候,我发送数据到神经节的工具(通过gmetric)也发送警报到nagios(通过send_nsca,aka被动警报)。如果你正确地编写你的工具,它可以检测从上一个时期到当前时期的变化。 例如,您可以通过这种方式检测某些指标的变化。 现在的平均响应时间是比上一次高出X%吗? 队列大小增加/减less了X%多less?

我用了一段时间,但没有神经节的粒度。 而且,在神经节中创build一个新的度量标准就像调用gmetric一样简单。 BAM,你有一个新的图表。 我还发现将最后一次部署时间显示在我们的度量图上是很有用的(只是显示部署时间的垂直线)。通过这种方式,您可以更好地直观地了解正在进行的操作以及何时进行操作。