我有一个监控〜30个Windows服务器的nagios服务器设置。 我想添加一些趋势图表。 我读过nagiosgraphics插件很简单 ,许多人使用独立的,独立的图表/趋势工具。
nagiosgraphics插件与独立产品(如ganglia / munin / cacti)有什么限制?
我对独立软件包提供的特定function和优势感兴趣,而nagios绘图插件则没有。
考虑到你已经安装了nagios,可以考虑使用nagiosgraph或pnp4nagios。
nagiosgraph和pnp4nagios在绘制nagios性能数据方面做得相当不错。 nagiosgraph有一个基于参数的configuration方法,pnp4nagios有一个基于模板的方法。
切片和切片的数据是非常重要的,恕我直言。 例如,您可以查看单个主机上的所有服务,或查看具有特定服务的所有主机,或者查看任意主机和服务的任意graphics集合。
安装不是微不足道的,但并不困难。 很大程度上取决于你想要定制多less东西。 例如,nagiosgraph是'install.pl'或'rpm -i nagiosgraph.rpm'或'dpkg -i nagiosgraph.deb'。 pnp4nagios是'./configure; 使; 安装“。
n2rrd也可以做一些这样的事情,但它不像抛光一样,需要更多的工作来configuration。
rrdtool有数据存储的怪癖,任何系统都会有抽样问题。 rrdtool默认会进行一些数据平滑处理,但是如果需要的话,除了平均数之外,还可以捕获(和绘制)最大值和/或最小值。
每个基于rrdtool的方法都会受到数据/graphics过时的影响,因为每个rrd文件中的模式都是静态的,大多数系统使用rrd文件名来标识数据。 当主机名或服务名称改变时,数据通常不会丢失; rrd文件仍然存在于磁盘上。 但是一些用户界面提供了查看“陈旧”rrd文件的方法,而其他用户界面则需要通过命令行进行手动pipe理。 在许多安装中,这只是初始configuration系统时的一个问题,但在dynamic环境中(例如,监控寿命只有几个月的虚拟机),可能会变得乏味。
一个最后的笔记。 实际上有两部分趋势:数据收集和数据显示。 如果您使用独立的graphics系统而不是扩展现有的nagios安装,那么您可能需要在Windows机器上安装附加组件来收集数据。
我同意lynxman。 NAGIOS是立即定性的数据(是X好还是不好?); 慕尼黑是历史数据(现在X有多么充分,今年多么充实?)。 我所有的NAGIOS设备(其中一些监视数百个服务)都与慕尼黑系统连接进行定量监测。
还要注意,munin具有将数据提供给NAGIOS的特定钩子。 它理解WARNING和CRITICAL阈值的概念,并且在需要通知(以及对NAGIOS“大板”的看法)的情况下,单个muninvariables非常容易通知单个NAGIOS服务的状态。
通常的工作stream程是,没有人查看munin图,直到NAGIOS警告已经违反阈值,但是随后munin图对于发现是否一直在缓慢上升是非常宝贵的,或者这是一个超出蓝色增加,或者我们有一个每周的上下循环,幅度缓慢增加,或者是什么。
正如lynxman所说,UNIX的方式是“一个任务,一个工具”。 制作munin和NAGIOS的工具链对我来说非常有效,可以提供定量和定性的监测以及通知。 它还具有保持界面清洁的明显优势:当您看到NAGIOS时,您会看到一个简单的视图,说明事情现在正在运行,没有任何历史数据混淆视图。 当你看到慕尼黑的时候,你会发现有关这个问题的历史信息可以为你的分析做好准备,没有“主机倒闭”或者“sshd不会跟我说话”的错误。
Nagiosgraphics插件如你所说是非常有限的,他们提供了一个非常基本的rrdtool界面和用户界面devise是有点反直觉,这基本上是对nagios的黑客,试图使用,只是为了好玩,但它没有任何警告多次打破。
去一个独立的产品(尤其是munin或ganglia)为你提供nagios无法完成的一系列服务,就像unix的口头禅一样,只要做一件事情比擅长擅长更好,nagios对于监测和munin / ganglia /仙人掌是惊人的graphics。
在堆栈溢出,我们使用n2rrd这是一个Nagios插件绘制性能数据。 在某种程度上,我会同意lynxman的观点,它确实有一个很大的黑客感觉。
然而:
rrd图是根据服务器名称存储的,所以如果你改变了你所sorting的数据的名字…你可以随时重新命名这些文件是符号链接它们,但是你不会丢失数据。
我在最近的一些提示RRD图服务器故障博客文章中有一些这些图的例子。 另外,n2rrd页面同时包含了cacti demo以及rrd2graph。
我认为最重要的是Nagios路线可能缺乏一个或两个function,但是如果你不介意把自己写成rrd模板的细节弄脏你的手,那么它是相当完整的。 这可能会占用更多的时间,但是这将鼓励在rrd中发展更多的专业知识。
我要求准确的数据和rrd的数据显示不准确 – 这是正常化! 对于大多数用户来说这很好,因为他们没有使用非常准确的数据开始。 他们正在使用采样率通常在一分钟或更长时间的数据,这不会给你一个非常准确的描述正在发生的事情。 这也意味着,如果您的数据在某个地方出现高峰,您可能永远都看不到它。
考虑一下 – 比如你的Gbnetworking以每秒10MB左右的速度嗡嗡作响,突然之间几分钟内就出现100MB /秒的高峰。 另外请注意,如果仅仅是30秒的秒杀,你甚至可能不会以几分钟的采样率看到它。 如果您查看当天的数据,那么“峰值”可能只会显示为15MB /秒,但实际值也取决于其他一些因素。 如果不是,那么你很可能会认为你的networking是快乐的!
更让我感到沮丧的是数据被标准化为graphics的物理宽度和x轴的范围。 这是什么意思,我提到你的秒杀没有看到? 如果你放大它神奇地出现! 我会坚持gnuplot – 图表可能不会很漂亮,但它们坚如磐石,并且gnuplot在显示之前从不修改数据。
-标记
我发现使用pnp4nagios很好地绘制graphics。 它也支持缩放。 这并不是最容易实现的,但是对于nagios来说并没有什么。