我们通常在我们所有的Linux服务器上都安装了Nagios代理,因此我们可以实时获得关于它们发生的详细报告,同时我们也有历史数据。
但是有一个RHEL 7服务器,我们无法安装Nagios代理(或通过ssh等进行监控),并且在这台服务器上平均负载每隔几天就会增加一次。 这是一个Web服务器,我们发现当用户抱怨网站加载缓慢。 在大多数情况下,我们login并检查负载是否恢复正常。
有没有什么办法,使用现成的操作系统工具和日志,我可以找出是什么导致了负载起飞?
我经历了几乎所有的日志文件,包括Apache日志等,但我找不到任何明显的东西。
有什么工具或守护进程可以给我更多关于此类事件的信息吗?
你可以使用Monit 。 这个程序定期检查(可调整的时间间隔 – 2分钟,5分钟…)数量的重要系统参数, loadavg是我认为默认情况下。
当参数( loadavg )超出可调阈值时,默认是向你发送通知邮件。 如果这是有利的,您可以通过sshlogin并执行top / htop /ps和其他标准工具,以便快速粗略地了解正在发生的事情。
第二个select是configurationMonit的自定义脚本执行,而不是(或者一起发送)通知邮件。 这个自定义脚本可能会执行简单的top -n 1 >> /tmp/performancefindings.txt ,您将有很好的起点调查高负载平均值。