查找Linux服务器上过去发生的高负载平均的根本原因

我们通常在我们所有的Linux服务器上都安装了Nagios代理，因此我们可以实时获得关于它们发生的详细报告，同时我们也有历史数据。

但是有一个RHEL 7服务器，我们无法安装Nagios代理（或通过ssh等进行监控），并且在这台服务器上平均负载每隔几天就会增加一次。这是一个Web服务器，我们发现当用户抱怨网站加载缓慢。在大多数情况下，我们login并检查负载是否恢复正常。

有没有什么办法，使用现成的操作系统工具和日志，我可以找出是什么导致了负载起飞？

我经历了几乎所有的日志文件，包括Apache日志等，但我找不到任何明显的东西。

有什么工具或守护进程可以给我更多关于此类事件的信息吗？

你可以使用Monit 。这个程序定期检查（可调整的时间间隔 – 2分钟，5分钟…）数量的重要系统参数， loadavg是我认为默认情况下。

当参数（ loadavg ）超出可调阈值时，默认是向你发送通知邮件。如果这是有利的，您可以通过sshlogin并执行top / htop /ps和其他标准工具，以便快速粗略地了解正在发生的事情。

第二个select是configurationMonit的自定义脚本执行，而不是（或者一起发送）通知邮件。这个自定义脚本可能会执行简单的top -n 1 >> /tmp/performancefindings.txt ，您将有很好的起点调查高负载平均值。