EC2磁盘达到100%实用程序,但重新启动后罚款

我们一直在Amazon EC2上运行一些生产服务,主要使用t1.large和t1.xlarge实例(非EBS)。 每隔一个附加(临时磁盘),经常会进入100%util状态(由iostat -xtc报告)。

当磁盘进入这种状态时,它基本上是完全不可用的。 重新启动解决了这个问题,看起来没有任何损坏。 发生显然是随机的,每隔几周就会发生一次。

我不确定是否有任何软件相关,但是我们正在运行最新的Ubuntu 10.04(Lucid)。 这些临时磁盘目前在lvm(RAID0)下运行。 以前我们使用mdadm和lvm。

有没有其他人看过这种行为之前(不知道它是特定于EC2)和任何想法如何避免它或纠正它,而无需重新启动?

即使EC2实例上的临时存储也受到多租户的典型问题的影响。 而不是只重新启动服务器,[如果您的configuration允许]完全停止并启动实例,以便您的实例在不同的虚拟机pipe理程序上结束。

这里有一篇关于Netflix处理EC2多租户问题的策略。