将大型(100GB)文件从colo数据中心移至EC2实例

我正在build立一个新的EC2实例。 作为其中的一部分,我需要从我们的colo数据中心移动一个大文件(100GB)到EC2。 (如colo网站有很多带宽….)。

我的EC2实例有一个很大的EBS卷,所以我有一个地方把它。

我尝试了robocopy,但那是永远的。 现在我正在尝试teracopy,但是这似乎需要12个小时。 (现在时钟为1.8MB / s)(robocopy和teracopy都使用Windows文件共享。)

  • Colo数据中心:大量的带宽(30-60Mbps出站或更多)
  • EC2实例:m1.medium实例

有什么方法可以更快地移动?

谢谢!

我的第一步是尝试一个更大的实例。 m1.medium具有“中等”的networking性能。 http://aws.amazon.com/ec2/instance-types/#instance-details

像hi1.4xlarge这样的东西会给你一个10千兆连接到AWS的networking。 如果用一个testing没有performance出更好的性能,那么瓶颈就不是AWS。

或者,你可以蜗牛邮寄你的数据: http : //aws.amazon.com/importexport/

您可以通过从与您的实例相同的地理区域中的大型镜像站点下载东西来testingAmazon链接和EBS卷。 在欧盟,我的t1.micro实例可以从live.debian.net获得〜6-9MB / s。 在US-West上,我可以从mirrors.kernel.org获得2-4MB / s

尝试使用类似FTP / SCP / SFTP的方式进行传输,这可能比CIFS通过WAN链接快一点,特别是在两端都有较旧版本的Windows的情况下。

如果还有什么东西从colo链接出来的话,那么1.8 MB就不是你引用的带宽那么远了。 您可以通过将文件拆分成块并为每个块并行运行副本,从而更多地脱离链接。 ymmv取决于什么是限制带宽。

解决。

问题看起来如下:robocopy和teracopy正在通过文件共享。 而且,由于服务器一方是win2003,另一方面是win2012,所以我们被困在SMB1上,这对于这样的WAN传输并不理想。 (如果双方都是Win2008或更高版本,SMB2将自动协商,据称这是理想的转移。)

所以我们启动了ftp,使用filezilla作为ftp服务器和filezilla ftp客户端。 Annnnnnnnnnnnd ….结果在:

  • 预计转机时间为3-4小时
  • 6.4MB /秒

这是从robocopy / teracopy的结果

  • 12小时
  • 1.8MB /秒

我们针对EC2中型和xlarge实例testing了robocopy / teracopy和ftp解决scheme, 并且根据EC2实例types在吞吐量方面没有任何差异。 唯一的区别是用于移动数据的协议。 (如果“来自云端”的stream量的吞吐量有所增加,瓶颈是我看不到的地方。)

通过S3移动它。

差不多2年后,EC2networking性能进退不大。 虽然这是一个额外的跳跃,但通过S3移动实际上更快。 我在悉尼。