我将要运行几十个亚马逊Web服务点实例 。 它们以市场价格为基础上下调整,适用于您更关心成本而非速度的工作量。 我想监视他们的performance,跟踪通用系统指标和我的工作的一些具体指标。
我熟悉的监视软件包需要手动执行每个实例的configuration,并期望系统始终处于运行状态。 我希望机器能够将自己添加到监控集,如果它自动终止,我不希望这被视为一个问题。 我还想要一些汇总统计信息,例如在所有机器上每小时完成的总任务。
我应该看看哪些监控软件包可以存在几个小时的服务器?
看看Ganglia( http://ganglia.sourceforge.net/ )。 configuration文件对于所有实例都是一样的(“通过UDP发送指标到主机abcd”)。 您可以获得各种基本系统度量标准,并且很容易收集新的度量标准(这里有一个“gmetric”命令行工具,您还可以通过Python模块与度量标准收集守护程序进行交互)。 您不需要在服务器端进行任何configuration来接受新的指标; 它工作正常。
请注意,Ganglia是一个度量收集工具; 它不会做任何forms的提示(但是如果你想要这样的事情,很容易与Nagios集成)。
如果Ganglia认为您的主机已closures,则可能会停止显示度量标准(对于该主机),但是当服务器重新联机时,它们将全部返回。 你可以使用gmetric工具的欺骗function来伪造它(例如,让主机在closures时启动的东西)。
Ganglia在后端使用rrdtool。
不知道每小时完成的总任务。 你可能会想创build一个插件来做到这一点。 我build议看看Nagios Exchange。 你会看到很多样本,其中之一将是一个很好的起点。 问题是你的上/下需求将是Nagios和类似的方法的痛苦。 您需要使用Nagios插件提供的定制,但需要使用云监视器模型。 不知道仙人掌或Ganglia是否适合。 很确定appfirst可以做到这一点。