debugging一个完整的崩溃/挂起？

我们正在Amazon EC2上运行一个Ubuntu实例，最近我们发生了一个意外的（当前无法解释的）崩溃（与最近的停机无关）。问题基本上是机器不会对任何事情（SSH / HTTP）做出响应，尽pipeAWS控制台中的所有内容都表明实例运行正常（CloudWatch中的CPU使用率为0）。

最终，我们已经采取了重启这个似乎已经恢复的事例。我有：

我不知道还有什么要做/检查。

有什么我可以做，以防止这种情况再次发生？它造成了我们相当多的停机时间。如果不是，如果再次发生，我该怎么办？除了重启之外，还有其他的东西

这是做了一遍。这个实例几个星期前刚装好（在亚马逊停电之后不久）。它运行得很好，直到它刚刚没有反应的时刻。再次，有人在10分钟前login，运行htop ，一切都很好。

它再次坠毁。以下是AWS CloudWatch的一些图表（我们有EBS卷，一个用于启动，一个用于数据）：

DiskReadBytes

注意：挂起发生在接近19:00的峰值之后

VolumeReadBytes

VolumeReadBytes

我不知道中断的行是什么意思。

未经修改的Ubuntu不太可能会这样做，我会怀疑其中一个添加的应用程序导致了这一点。我没有注意到你的列表中的RAM使用情况，也许值得使用cron将每小时的输出存储在一个日志文件中。你可能只是有泄漏或没有足够的内存。