上传200GB的文件到S3

在Linux上将200GB tar.gzfile upload到S3的最佳方法是什么? 在研究中我发现S3对象的限制已经增加到了5TB,并且了解了多部分上传机制来加速上传。 我find了一个python脚本boto,可能对此有帮助。 有人可以更多地了解这个话题吗?

不要上传。 发表它。 http://aws.amazon.com/importexport/

亚马逊提供了一种服务,您可以将便携式媒体发送给他们,他们可以从他们的快速骨干上传您的数据。

如果你真的想自己做这件事,那么拿一份S3cmd的拷贝,做一下s3cmd的 s3cmd sync

“永远不要低估满载磁带的旅行车的带宽。” – 安德鲁S Tanenbaum

编辑:如果你真的想能够大块的file upload,我build议你做下面的事情。

  1. 获取具有足够短暂存储的AWS EC2实例,以保存要上载的文件。
  2. 使用GNU Split将文件分成更小的块。
  3. 将块上传到您的临时EC2实例。
  4. 用拆分选项重新组装块,以重新组装。
  5. 从EC2上传数据块到S3(盲目快!)
  6. closuresEC2实例,但保持方便。

感谢您的答复和选项tom.I得到了能够实现上传到s3使用mulipart上传20GB上传。我需要python 2.5> + boto库+ s3_mulitpart python脚本来做上传。 我的参考在哪里

  1. http://code.google.com/p/boto/ – boto(使用2.1.1)
  2. http://www.elastician.com/2010/12/s3-multipart-upload-in-boto.html:mulipart上传使用博托。
  3. http://bcbio.wordpress.com/2011/04/10/parallel-upload-to-amazon-s3-with-python-boto-and-multiprocessing/ :并行上传到Amazon S3脚本

希望这些是有用的。

普雷姆

将您的tar.gz文件拆分成更小的块,并跟踪他们的本地和远程MD5总和。 那么你可以重新上传一小部分,如果出现问题。