监控EC2实例的好方法

我想听听你的方法来监视在EC2中运行的Linux实例。 我非常习惯使用Nagios来监视基于Web的应用程序生态系统的所有方面,但是它的模型似乎并不适用于经常被破坏和重新创build的机器。 我的EC2实例是由RightScale中介的,它有自己的监控scheme,我没有发现非常有用 – 虽然我打算再看看他们的监控。

有问题的实例运行正常的开源资源:MySQL,Apache,Passenger,Rails。

提前谢谢了。

可以在脚本中使用ec2工具来dynamic生成nagiosconfiguration。 如果所有EC2实例都需要相同的服务,则将该服务与主机组而不是主机相关联,然后使用通过cron运行的脚本dynamic生成主机/主机组定义。 然后可以执行kill -HUP(或/etc/init.d/nagios重新加载或svcadm nagios刷新),然后让nagios重新加载新的configuration。 这是一个轻量级的操作(不需要重新启动),所以可以经常进行。 脚本必须读取活动实例及其地址的列表,并为每个实例生成一个主机定义。

您是否想要监控每个 EC2实例或整体正常运行时间和性能?

我们并不在意每个实例的作用,而是监视我们整个Web应用程序的响应时间和function。 有几个工具。 我们喜欢AlertFox ,它为我们每15分钟运行一个非常复杂的基于iMacros的交易监控脚本。

这可能是值得一看的cloudkick。 这将取决于您需要执行的监视types,但它是专门为EC2devise的:

https://www.cloudkick.com/

我使用Ganglia来监视我的群集:

http://ganglia.info/

只要确保将其configuration为使用单播并在一段时间后丢弃死主机。