服务器CPU太高

最近我不得不重新启动我的服务器,因为它没有响应。 我正在查看日志,但找不到任何有价值的东西来知道错误是什么。

液滴CPU是100%数小时。 这是截图:

在这里输入图像说明

当液滴出现问题时,现场不可用,也不能进入壳体。

我不知道还有什么可以find错误或可能的原因。 我应该从哪里开始寻找? 什么特定的日志可以在这里更有用?

现在一切都很好,重启后…但它可能会再次发生。

请帮帮我。 谢谢。

首先,您是否有任何监控工具,如Nagios ,以实时突出显示这些事件? 这将是一个很好的build议,你configuration来监视你的服务器,它可以做一些SNMP命令,如:

服务监控

事件处理

多主机监控

有关更多详细信息,请参阅下面的附件:

======= USAGE: ======= ./checkProcessesviaSNMP.sh <community-string> <remote-host> <process-names> <warning> <critical> <type> 

这个工具应该能够监视服务器上的大量实时事件,并通过电子邮件提醒您(由于您configuration了SMTP)。

这个解决scheme不会阻止错误,但是应该给你实时的警报。

在解决Nagios之类的问题之前,我build议你安装sar来保持服务器的监控。 它基本上不需要configuration,但同时它会收集许多关于服务器正在运行/正在发生什么的关键统计信息。