Amazon RDS实例停止响应

我们已经在生产中运行了一个大型RDS实例,而且没有一个停机时间。 最近,由于预算更大,风险更高,我们决定将其转换为多个AZ实例,以提高数据的可靠性和冗余性。

从那以后(大概两个星期前),我们发生了两起严重的故障,需要重新启动。 “最近的数据库事件”没有任何内容。 CloudWatch中logging了两个数据库连接峰值,与故障同时发生。

这是怎么回事?

看起来这些问题与AWS有关,而与实例无关。 当这个post发布的时候,这是迄今为止AWS欧洲最严重的一次中断。

RDS多可用区有许多问题,这意味着自动故障切换仍然可能不会发生,使您无需服务器。 实施者应该意识到并为其应用build立足够的冗余,以减轻多个可用区域中的问题。