服务器CPU突然突然变得不可用 – 提示来监视/分析这个?

我的服务器在过去的24-48小时内一直在下降,CPU从15%上升到100%,服务器变得无法使用,所有我的站点因此而停机。

有关如何跟踪我的服务器上正在进行的操作的任何提示?

对软件的任何build议,可以帮助我防止CPU无限期地最大限度,也许强制自动重新启动框?


有一个指针在做什么是非常有用的,将非常感激。 🙂

你应该尝试调查问题是什么。 检查/ var / log /消息,然后按时间重新启动它和其他日志。

比你可以尝试设置一些像virtualbox的testing目的,并运行你的主要服务器。 这会降低生产力,但增加一些稳定性,你可以访问它。

还检查自动更新。 他们可以吃你的CPU。

安装Munin。 也不要害怕嗅探交通

对于监控,你可以尝试使用监控 – 它应该能够重新启动一个失控的服务器,如果你把它放在它的控制之下。

作为一个快速和肮脏的解决scheme,你可能会把类似的东西

date >> /var/log/cpu_hogs && ps -eo pcpu,pid,user,args | sort -r -k1 | head -5 >> /var/log/cpu_hogs 

进入cron运行,每5分钟左右运行一次,在崩溃之后,看看在服务器崩溃之前吃什么东西。

如果您想在stream程级别和用户级别使用CPU和其他资源的更详细的历史视图,则应打开Linux进程记帐 ,而不是/ var / log / messages等。 通常提供。

至于服务器无响应时的自动重启,你想看看什么叫做看门狗 (Ubuntu的手册页)。