EC2 – 硬件故障

我在Debian实例上使用EBS存储。 我将实例设置为在closures时不终止。

我想知道在硬件故障(RAM,CPU,HD等)的情况下会发生什么情况。

  1. 应该configuration什么types的警报通知? 我可以依靠“StatusCheckFailed”吗?

  2. 我应该期望在AWS团队自动完成的其他硬件上重新启动/重启吗? 如果没有,我必须遵循什么步骤来重新启动我的实例在不同的硬件上? 多久时间?

  3. 我可以安全地假设我不会丢失我的数据(/ var / www等)? 目前如果我停下来开始一切都还好,但我不确定我是否可以依靠它

  4. 在硬盘故障的情况下,它是透明的,因为AWS使用RAID或其他? 还是我也必须得到通知,也许手动重新从以前的快照?

作为“云端”,尤其是AWS,我期待它包括故障转移pipe理,像VMware这样的产品,只需在另一个硬件上自动重启VM。 所以我明白我必须期待故障转移,但我正在寻找解决scheme,或者在检测到硬件故障时在另一个区域/区域自动运行实例,或者如果不可能,至less需要通过几次手动脚步?

谢谢,罗德

AWS不太可能重新启动您的实例。 他们给你所有的工具来监视和重启实例,让他们把它给你。 如果您需要做某些事情,他们可能会发邮件给您。

如果EC2硬件出现故障,您不应该丢失EBS磁盘上的数据,但EBS不如S3那么强大。 您有可能会丢失EBS磁盘,因此您需要备份或快照(我同时使用Attic和Dropbox进行备份)。 你应该采取定期的快照,这是存储在S3上,是更耐用。 第一个快照很大,随后是差异,因此使用相对较less的空间。

您可以在CloudWatch中创build一个警报,在引发StatusCheckFailed的情况下重新启动您的实例。 一步一步的说明文件在这里 。

在某些情况下,亚马逊会注意到他们的硬件处于降级状态,并告诉你在某个特定的date下(停止并启动你的实例),否则它将自动停止。

在某些情况下,不会有任何警告,只会停止。 或者不进入停止状态,只是变得无法访问。 它们在处理完之后可能会或可能不会重新启动。 有时,事后会有道歉邮件。

我还没有一个EBS卷失败(我有很多例子怪异,但不是卷),但仍然计划。 我不知道那是什么样子

为可达性状态检查失败设置警报是最好的select。