我被build议为我的公司学习Hadoop,所以我想构build一个testing环境。
我所在的公司拥有一个拥有VMware vCloud基础架构的数据中心,用于将私有云出售给其他公司。
我被允许使用一些CPU,RAM,networking和存储,但我似乎无法在小testing环境中findHadoop的基本级别要求。
我正在考虑把单个虚拟机作为一个单独的节点集群工作,从事简单的工作,比如分析关键字的PDF文档1000次,提取段落并重新格式化为一个HTML文档。
任何人都可以build议我应该为此虚拟机提供的最低要求,或者我可以在哪里find这些信息。
谢谢。
如果您只是想了解Hadoop的工作原理,我build议您在虚拟机上抓取一个可用的发行版。 这些devise是一个小型的学习环境,让您可以在一个节点内运行伪分布式群集。
可能还有其他的; 这些只是我能想到的那些。
如果你想build立你自己的虚拟机,答案是:这取决于。
从8-16GB的RAM,几百GB的磁盘空间和2-4个CPU核心开始,你可能会很好。 这足以让你在伪分布式configuration中工作。
如果您正在讨论构build一个小型集群,那么您可能需要4个节点:1个名称节点(2-4G内存,1-2个CPU),3个datanodes(4-8GB内存,尽可能多的空间)。 这足以让你运行HDFS和Mapreduce环境,并给你设置和运行集群的经验。 如果你走这条路线,你可能想用Hortonworks来检查Cloudera Manager或Ambari 。
编辑:
我几乎忘了:由于您在VMware基础架构中,因此您可能感兴趣的是vmware Serengeti 。