Ganglia gmetad运行了一段时间(在AWS EC2上)

我们正在使用Ganglia监控亚马逊AWS上的云基础架构。 一切工作正常(指标stream动等),除了偶尔gmetad过程将segfault出于蓝色。 gmetad进程在m3.medium EC2上运行,并且正在监视大约50台服务器。 服务器被安排成组,每个组都有一个堡垒EC2,其中度量被收集。 gmetad被configuration为从这些堡垒获取指标 – 其中约10个。

一些有用的事实:

  • 我们在所有的EC2上运行Debian Wheezy
  • 除了段错误日志,例如“gmetad [11291]:segfault at 71 ip 000000000040547c sp 00007ff2d6572260 gmetad [400000 + e000]的错误4”,崩溃在正常操作中不创build日志。 如果我们使用debugging日志logging手动运行gmetad,那么看起来崩溃与gmetad进行清理有关。
  • 当我们意识到,清理过程可能是责怪,我们做了更多的研究。 我们意识到,我们的磁盘IO太高了,并添加了rrdcached为了减less它。 磁盘IO现在要低得多,崩溃发生的次数也less,但仍然是平均每天一次左右。
  • 我们有两个系统(开发和生产)。 这两个都出现这个崩溃,但是监视一个小得多的服务器组的开发系统崩溃的次数要less得多。
  • 生产系统运行神经节3.3.8-1 + nmu1 / rrdtool 1.4.7-2。 我们已经将开发系统中的神经节升级为神经节3.6.0-2〜bpo70 + 1 / rrdtool 1.4.7-2。 这似乎没有帮助与崩溃。
  • 我们有两个系统上运行的configuration,如果它死了重新启动gmetad。 它立即重新启动,没有问题。

有没有人遇到这种崩溃,特别是在亚马逊的硬件? 我们正在努力寻找解决scheme!