我的任务是:
所有这些事情,我必须在亚马逊服务的帮助下实现。 (在我的情况下,我使用Amazon S3来存储数据和Amazon Elastic Map Reduce。)
实际上,我从MS SQL Server导入的数据非常大(在一个表中接近5,000,000个条目,同样我有30个表)。 为此,我在Hive中写了一个只包含查询的任务(每个查询都使用了很多连接)。 所以由于这个原因,我的单个本地机器的性能非常差(完全执行需要大约3个小时)。
我想尽可能减less这个时间。 为此,我们决定使用Amazon Elastic Mapreduce。 目前我正在使用十个m1.large实例,并且仍然具有与单个本地计算机相同的性能。
还有没有其他方法来提高性能或只是增加实例的数量?
为了提高性能,我需要使用多less个实例?