我试图启动一个系统(Hadoop,但这对于这个问题应该没有太大的关系),并且需要能够SSH到本地主机。 我用cygwin在windows上做这个。 cygwin的SSHD服务正在运行,而ssh的localhost工作正如ssh username @ localhost一样。 但是,当我这样做时,它说: Could not chdir to home directory : No such file or directory mkdir: cannot create directory `': No such file or directory could not be created. Setting HOME to /tmp. 不知怎的,它试图chdir到一个空名称的目录,失败。 但是,我不明白为什么会那样做。 / home / username文件夹就像它应该存在一样,在通过sshlogin后可以访问。 任何指针上的ssh将获得空文件夹的名字? (有些configuration我可能不知道?)。 提前致谢!
我在AWS中设置了一个CDH4进行评估(我们已经在Ubuntu Lucid上运行了一个CHD3),并且我希望得到关于在Lucid vs. Precise上运行的任何已知的地堑的build议。 在Lucid下build立testing集群更安全…更类似于我们现有的生产系统; 或者在Precise下进行设置? 哪个操作系统有大多数(多个)开发和testing社区正在运行它?
我正在使用CentOS 6.2。 我试图从init.d脚本启动Hadoop,但是失败了。 这是我在boot.log中看到的: Retrigger failed udev events [ OK ] Enabling Bluetooth devices: starting namenode, logging to /home/hadoop/hadoop/hadoop-0.20.2/bin/../logs/hadoop–namenode-localhost.localdomain.out localhost: ssh: connect to host localhost port 22: Connection refused localhost: ssh: connect to host localhost port 22: Connection refused starting jobtracker, logging to /home/hadoop/hadoop/hadoop-0.20.2/bin/../logs/hadoop–jobtracker-localhost.localdomain.out localhost: ssh: connect to host localhost port 22: Connection refused Starting […]
我通过手动安装大部分软件包(使用二进制文件或源代码)构build了一个Hadoop集群。 我select不使用像Cloudera,MapR或Hortonworks这样的自定义分发版本,因为我想要select使用哪些软件包和版本的灵活性。 然而,这些发行版大部分都有优秀的pipe理和监控工具,这将使我们的开发人员的生活变得更简单。 那里有没有免费发布的工具吗? 我不在乎他们是否是免费或许可的,只是他们会使用定制的集群。 谢谢。
我们正在评估设置一个大的hadoop集群的选项。 现在我们可以从这三个设置中进行select: 带有12x 1TB磁盘的300x服务器 带有12x 2TB磁盘的150x服务器 带有12x 3TB磁盘的100x服务器 其他服务器规格是相同的。 你会select什么,更重要的是,为什么? 最好的问候,罗宾
是否有人知道任何已经为大数据处理设置了环境的沙箱? 它可以是hadoop,cassandra,猪等… 我是一名SQL服务器程序员,并试图进入大数据/ nosql解决scheme,但是在尝试在Linux中设置自己的环境时非常困难。 是否有任何免费/付费服务允许您上传大数据并与之一起玩并build立群集?
我一直在关注这本书: Hadoop in Action 它提供了一个很好的指导如何开始使用与Hadoop的EC2。 它所说的第一件事之一就是在这里下载命令行工具: http://developer.amazonwebservices.com/connect/entry.jspa?externalID=351&categoryID=88 然后它说这样设置这些环境variables: set JAVA_HOME = "C:\Program Files\Java\jdk1.6.0_08" set EC2_HOME = "C:\Program Files\Hadoop\aws\ec2-api-tools-1.3-30349" set PATH = %PATH%;%EC2_HOME%\bin;%HADOOP_HOME%\src\contrib\ec2\bin set EC2_PRIVATE_KEY = c:\ec2\pk-HKZYKTAIG2ECMXYIBH3HXV4ZBZQ55CLO.pem set EC2_CERT = c:\ec2\cert-HKZYKTAIG2ECMXYIBH3HXV4ZBZQ55CLO.pem 我的问题是关于EC2_HOME。 即使我已经设置了,并且我检查了是否使用set命令设置了它。 看起来它已经被正确设置了。 当我运行脚本: ec2-describe-regions 我得到的输出是: EC2_HOME未设置 我究竟做错了什么?
希望这个问题不是脱离主题。 我在AskUbuntu上问这个问题,但没有得到回应: 我遵循Michael Noll的优秀指南,将Hadoop设置在单个群集上: http : //www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/ 我现在想要设置第二个节点来做一些处理。 在本指南以及所有其他人看来,这些其他集群都在同一个局域网中。 但是,我正在使用我的大学给出的虚拟机来执行我的项目,我通过连接到它的IP地址使用PuTTY访问。 我可以通过Hadoop将本机连接到完全不同的IP地址上的其他机器吗? 这甚至有可能吗? 我试着编辑两台电脑的/ etc / hosts,并存储这样的IP地址: 117.118.45.205:127.0.0.1 localhost 首先使用真实的IP地址,然后是“本地”IP地址,但是没有工作。 有没有人有任何build议,或者这是不可能的?
我是新来蜂巢,并试图build立一个相对安全的方式为testing环境。 我想使用远程元数据,因此MR作业可以访问数据库。 我似乎有东西几乎工作,但是当拥有凭证的用户尝试创build数据库时,我会得到: hive> show databases; OK default hive> create database testdb; FAILED: Error in metadata: MetaException(message:Got exception: org.apache.hadoop.ipc.RemoteException User: hdfs/[email protected] is not allowed to impersonate [email protected]) FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask 我可以运行'显示数据库'确定。 我有一个“hive –service metastore”作为hdfs以hdfs / [email protected]作为主体运行。 我在同一个盒子上运行configuration为“myuserid”。 我不知道它是否相关,但如果我尝试从另一个系统运行configuration单元,我得到一个GSS启动错误,除非我使用相同的主体(hdfs / [email protected])configuration单元.metastore.kerberos.principal。 这是预期的吗? 当我尝试使用谷歌search这个我看到类似的问题,但他们的消息不能模仿只显示单个部分的用户名在哪里它显示的领域。 我试着玩auth_to_local属性,但没有帮助。 Map Reduce和HDFS操作正常。 在core-site.xml中我有: <property> <name>hadoop.proxyuser.hdfs.hosts</name> <value>*</value> </property> […]
我被build议为我的公司学习Hadoop,所以我想构build一个testing环境。 我所在的公司拥有一个拥有VMware vCloud基础架构的数据中心,用于将私有云出售给其他公司。 我被允许使用一些CPU,RAM,networking和存储,但我似乎无法在小testing环境中findHadoop的基本级别要求。 我正在考虑把单个虚拟机作为一个单独的节点集群工作,从事简单的工作,比如分析关键字的PDF文档1000次,提取段落并重新格式化为一个HTML文档。 任何人都可以build议我应该为此虚拟机提供的最低要求,或者我可以在哪里find这些信息。 谢谢。