监视随机上下的批量作业服务器？

我将要运行几十个亚马逊Web服务点实例。它们以市场价格为基础上下调整，适用于您更关心成本而非速度的工作量。我想监视他们的performance，跟踪通用系统指标和我的工作的一些具体指标。

我熟悉的监视软件包需要手动执行每个实例的configuration，并期望系统始终处于运行状态。我希望机器能够将自己添加到监控集，如果它自动终止，我不希望这被视为一个问题。我还想要一些汇总统计信息，例如在所有机器上每小时完成的总任务。

我应该看看哪些监控软件包可以存在几个小时的服务器？

看看Ganglia（ http://ganglia.sourceforge.net/ ）。 configuration文件对于所有实例都是一样的（“通过UDP发送指标到主机abcd”）。您可以获得各种基本系统度量标准，并且很容易收集新的度量标准（这里有一个“gmetric”命令行工具，您还可以通过Python模块与度量标准收集守护程序进行交互）。您不需要在服务器端进行任何configuration来接受新的指标; 它工作正常。

请注意，Ganglia是一个度量收集工具; 它不会做任何forms的提示（但是如果你想要这样的事情，很容易与Nagios集成）。

如果Ganglia认为您的主机已closures，则可能会停止显示度量标准（对于该主机），但是当服务器重新联机时，它们将全部返回。你可以使用gmetric工具的欺骗function来伪造它（例如，让主机在closures时启动的东西）。

Ganglia在后端使用rrdtool。

不知道每小时完成的总任务。你可能会想创build一个插件来做到这一点。我build议看看Nagios Exchange。你会看到很多样本，其中之一将是一个很好的起点。问题是你的上/下需求将是Nagios和类似的方法的痛苦。您需要使用Nagios插件提供的定制，但需要使用云监视器模型。不知道仙人掌或Ganglia是否适合。很确定appfirst可以做到这一点。