我的EC2实例(t2.small)停止接受SSH或其他服务上的连接,但是EC2控制面板表示即使几个小时后自动状态检查也没有失败。 我无法使用控制面板重新启动它,但我可以停止并重新启动它。 那一天,它变得没有反应。
之后,我configuration了cgroups来限制CPU和内存使用量的一个轻度资源占用的过程,但这似乎并不是正确的答案。 这不应该使机器停下来。 (它没有交换,但OOM杀手应该简单地杀死一个进程,如果实例内存不足)。“获取系统日志”和“获取实例屏幕截图”显示没有任何可疑。 服务器正在运行一些相当值得信赖的软件,比如postfix和gitolite,还有一个作为用户运行的开发中的服务器。 当我查看CPU使用情况图时,显示的是2.5%,偶尔会出现大约6%的峰值。
我能做些什么来解决这个问题,防止它再次发生? 我所能想到的只是硬件问题,但我认为这是不太可能的。