系统在高负载时间的快照?

我在其中一个网站上定期看到高负载平均值。 我有警报设置,但不明显是什么导致高负载,所以我想捕捉警报发生时系统的状态。

捕获相关信息的好方法是什么,这样我可以事后确定是什么原因导致了负载?

这是linux / ubuntu,apache,mod_python / django,mysql。

我喜欢用一个叫atop的程序。 http://www.atoptool.nl/与top类似,但它也以用户定义的间隔抓取顶层窗口的快照。 在/etc/atop/atop.daily设置INTERVAL=60来获得1分钟的快照。 atop -r /var/log/atop/atop_20100214以查看特定date的1分钟间隔。 使用tT键可以查看前后时间。 这些文件path是CentOS的,你的可能会稍有不同。

如果Ubuntu有sar,那么可以捕获系统磁盘使用情况,vm活动等。一旦您设置计算机来收集数据,则可以运行繁忙和非繁忙时间的报告来比较活动。 Apache有mod_status,mysql有一些统计工具,你可以通过cron定期从他们那里得到一些东西。

NewRelic具有优秀的工具来监视服务器负载的原因。 从应用程序和服务器的angular度来看。

应用程序监控 ,如慢SQL查询,错误率等

服务器监控指标,如networking/磁盘/内存/ CPU利用率

用户监控 ,如通过页面,位置,浏览器的性能; 并加载应用程序,networking,DOM和渲染之间的时间细分。

我们已经在这里使用了近12个月,这是非常宝贵的。 你得到一件免费的衬衫。