如何让亚马逊ELB处理大型交通匝道?

我们有一个目前在Amazon Ec2中的系统。 我现在使用Amazon ELB在2个区域中的12个实例上进行负载平衡。 我一直在运行一些不同特征的负载testing:

1)在60分钟内从0到10,000同时用户的斜坡。 2)从2,500开始15分钟到5000到15分钟,到7,500到15分钟到10,000到15分钟的阶梯斜坡。

在这两个服务器上,我的服务器的CPU占用率在20-30%左右,networking占用率在10-15%之间,看起来效果很好,我们的应用程序按照预期logging了一切,并在整个testing过程中对机器做出了非常快速的响应。 我在这些机器上每秒钟的stream量请求看起来很漂亮,显示出一些奇怪的行为。 一个例子是区域1中的服务器将每秒下降200-400个请求,而区域2中的服务器将同时跳跃每秒200-400个请求。 所有这一切仍然回应很好。

但是,我从外部负载testing中看到的结果有很大的不同。 我看到很多超时和连接重置错误。 那些超时和连接错误也是有些棘手的,这意味着我会走5分钟,没有错误,然后让他们有点泛滥,然后回到没有一段时间。

我怀疑ELB可能会重新平衡,或者是造成这种行为的一些东西。 我确实试图转移到一个运行HAPRoxy的非常健壮的硬件。 这看起来解决了负载testing中较低端的一些问题,但似乎让networking挨饿,并且每秒处理速度不能超过5-6K个。

我想知道是否有人有任何洞察亚马逊ELB行为? 另外,如果有任何解决方法呢? 这可能包括完全不同的解决scheme

谢谢,

拾音

回答我自己的问题。 我偶然遇到了这个线索( https://forums.aws.amazon.com/thread.jspa?threadID=76834 ),它引用了一个叫做ELB预热的东西。 我打电话给亚马逊AWS的支持,被告知这确实是他们提供的服务,你只需要有一个支持计划(如果你想打电话给他们的话,就是金级)。 他们为我设置了一切,我能够在5分钟内以0-10K QPS的速度进行成功的负载testing。