服务器CPU突然突然变得不可用 – 提示来监视/分析这个？

我的服务器在过去的24-48小时内一直在下降，CPU从15％上升到100％，服务器变得无法使用，所有我的站点因此而停机。

有关如何跟踪我的服务器上正在进行的操作的任何提示？

对软件的任何build议，可以帮助我防止CPU无限期地最大限度，也许强制自动重新启动框？

有一个指针在做什么是非常有用的，将非常感激。 🙂

你应该尝试调查问题是什么。检查/ var / log /消息，然后按时间重新启动它和其他日志。

比你可以尝试设置一些像virtualbox的testing目的，并运行你的主要服务器。这会降低生产力，但增加一些稳定性，你可以访问它。

还检查自动更新。他们可以吃你的CPU。

安装Munin。也不要害怕嗅探交通

对于监控，你可以尝试使用监控 – 它应该能够重新启动一个失控的服务器，如果你把它放在它的控制之下。

作为一个快速和肮脏的解决scheme，你可能会把类似的东西

date >> /var/log/cpu_hogs && ps -eo pcpu,pid,user,args | sort -r -k1 | head -5 >> /var/log/cpu_hogs

进入cron运行，每5分钟左右运行一次，在崩溃之后，看看在服务器崩溃之前吃什么东西。

如果您想在stream程级别和用户级别使用CPU和其他资源的更详细的历史视图，则应打开Linux进程记帐，而不是/ var / log / messages等。通常提供。

至于服务器无响应时的自动重启，你想看看什么叫做看门狗（Ubuntu的手册页）。