服务器CPU太高

最近我不得不重新启动我的服务器，因为它没有响应。我正在查看日志，但找不到任何有价值的东西来知道错误是什么。

液滴CPU是100％数小时。这是截图：

在这里输入图像说明

当液滴出现问题时，现场不可用，也不能进入壳体。

我不知道还有什么可以find错误或可能的原因。我应该从哪里开始寻找？什么特定的日志可以在这里更有用？

现在一切都很好，重启后…但它可能会再次发生。

请帮帮我。谢谢。

首先，您是否有任何监控工具，如Nagios ，以实时突出显示这些事件？这将是一个很好的build议，你configuration来监视你的服务器，它可以做一些SNMP命令，如：

服务监控

事件处理

多主机监控

有关更多详细信息，请参阅下面的附件：

======= USAGE: ======= ./checkProcessesviaSNMP.sh <community-string> <remote-host> <process-names> <warning> <critical> <type>

这个工具应该能够监视服务器上的大量实时事件，并通过电子邮件提醒您（由于您configuration了SMTP）。

这个解决scheme不会阻止错误，但是应该给你实时的警报。

在解决Nagios之类的问题之前，我build议你安装sar来保持服务器的监控。它基本上不需要configuration，但同时它会收集许多关于服务器正在运行/正在发生什么的关键统计信息。