适用于多个JSON文件的AWS-Hadoop数据分析实施

我是hadoop和AWS的新手。我已经使用cloudera Hadoop发行版设置了多节点（4个实例t2.large）AWS EC2集群。我已经使用CSV文件（如字数）进行了基本示例的环境testing。

现在，我的主要项目是分析JSON文件中的数据。我有大约400万JSON文件约60GB的数据。每个文件都有一个大的JSON条目，基本上是每个文件中的一条logging的所有信息。

我有点困惑如何处理这个问题。可能是将文件复制到HDFS并构buildMap Reduce作业（使用Java，因为我很自在）创build大型CSV文件，然后从Hive中的这些CSV创build表进行分析。因为在本地将这些文件转换为CSV可能需要很长时间。即使将这些文件复制到AWS也会很慢，但一旦复制，我就可以使用实例的计算能力。不知道这是否正确？我该如何开始呢？

有没有一种方法可以直接处理JSON或其他任何可以使stream程高效的方法？我有大约1个月的时间将这些数据处理成可以查询的forms，然后从那里进一步构build。

任何帮助将是非常有益的。