适用于多个JSON文件的AWS-Hadoop数据分析实施

我是hadoop和AWS的新手。 我已经使用cloudera Hadoop发行版设置了多节点(4个实例t2.large)AWS EC2集群。 我已经使用CSV文件(如字数)进行了基本示例的环境testing。

现在,我的主要项目是分析JSON文件中的数据。 我有大约400万JSON文件约60GB的数据。 每个文件都有一个大的JSON条目,基本上是每个文件中的一条logging的所有信息。

我有点困惑如何处理这个问题。 可能是将文件复制到HDFS并构buildMap Reduce作业(使用Java,因为我很自在)创build大型CSV文件,然后从Hive中的这些CSV创build表进行分析。 因为在本地将这些文件转换为CSV可能需要很长时间。 即使将这些文件复制到AWS也会很慢,但一旦复制,我就可以使用实例的计算能力。 不知道这是否正确? 我该如何开始呢?

有没有一种方法可以直接处理JSON或其他任何可以使stream程高效的方法? 我有大约1个月的时间将这些数据处理成可以查询的forms,然后从那里进一步构build。

任何帮助将是非常有益的。