Amazon EC2 EBS存储可靠性

我们在Amazon EC2上运行了大量Ubuntu实例,在过去的两个月里,我们发现其中一些实例没有响应且无法访问。 没有SSH,没有ping响应等最终重新启动这些实例帮助作为最后的手段。

所有受影响的实例都是基于EBS的。 没有迹象表明原木失败的原因。 我们一直怀疑,也许这些实例可能以某种方式放弃连接到他们的EBS卷。

我的问题是:

  1. 这是甚至可能的(我的意思是:一个实例失去连接到它的EBS卷)?
  2. 我怎么去debugging这个,并确保这是事实?
  3. 最重要的是:我如何防止这个?

截至目前,EBS是您在AWS上最可靠的选项。 它不仅更好,而且还可以轻松拍摄快照并重新连接到另一个实例。 我们有非常大的Ec2实例,这是基于EBS的媒体网站使用,并没有像这样的问题。 除此之外,亚马逊保证99.95%的正常运行时间为这项服务,并会给退款incase它下降。

回答你的问题。

  1. 这是不太可能的,除非你的实例健康由于某种原因不好。 但过去曾有类似的问题报告,IOPS不佳。 看到
  2. 检查“读写IO”与“队列中的未决IO”。 所以如果在队列中有待处理的IO时你有0 IO,那么你有一个问题。 请参阅SLA。
  3. 检查实例的健康状况+ EBS IOP的健康状况。 您可以使用cloudwatch进行一些扩展。 检查这个链接。