我们开始使用Pingdom监控我们的networking服务器,并发现每个星期天UTC时间UTC时间我们都有几分钟的停机时间。
testing每分钟运行一次,并检查是否在端口80上返回了成功的HTTP响应(代码200)。testing由于超时而失败(30秒后无响应)。
以下是我们已经检查过的 – 没有成功:
由于我们在负载平衡器后面运行了Web服务器,因此我已经在负载平衡器的公有DNS和Web服务器的公有DNS上设置了Pingdomtesting,以便查明AWS负载平衡器是否有问题 – 两个testing都返回相同的结果
我们在我们的networking服务器上build立了Munin。 即使在失败后,一切都看起来很好。 由于最后的失败持续了2分钟,我想孟宁不能捕捉到一个潜在的问题(它只会每5分钟检查一次)
我检查了/var/log/apache2/error.log和/ var / log / syslog中的可疑条目
我检查了/etc/cron.weekly和/ etc / crontab中的可疑条目
我使用这种方法search了在0:00和0:15期间创build或上次修改的文件:
触摸-t 201209020000开始
触摸-t 201209020015结束
find/更新开始 – ! 更新结束
(什么都没find)
有没有人遇到类似的问题? 任何build议如何find这种行为的原因?
它是在AWS m1.large实例上运行的Ubuntu 10.04 LTS。
谢谢!
有一些报告显示,update-apt-xapi进程需要花费几分钟时间才能使用cpu。 它每周运行一次。 如果正常负载也很高,它可以把你的箱子放下。 该命令运行update-apt-xapian-index来更新软件包的索引。
请参阅以下解决方法的几个提示: http ://empoccz.wordpress.com/2012/01/02/ubuntu-update-apt-xapi-takes-lot-of-cpu-usage-ii/或https:// askubuntu。 COM /问题/ 79481 / IS-100-CPU使用率有害的,而更新-的apt-XAPI-运行