Articles of Hadoop的

Cloudera Manager是否需要持续进行Root访问?

安装Cloudera Manager 4时,它会要求无密码sudo用户的root密码来安装软件包。 这个帐户是否需要保留,还是只是初始设置?

如何连接在同一主机上运行的两个docker容器?

我有两个docker集装箱运行 docker ps 结果 CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES 0bfd25abbfc6 f_service:latest "/usr/local/start-fl 13 seconds ago Up 2 seconds 0.0.0.0:8081->8081/tcp flume 6a1d974f4e3e h_service:latest "/usr/local/start-al 2 minutes ago Up About a minute 0.0.0.0:8080->8080/tcp hadoop Hadoop服务在hadoop容器中运行[即datanode,namenode,jobtracker,tasktracker,secondarynamenode] Flume服务正在使用flume contianer [即flume-agent] 我想在flume容器上运行hadoop命令[即hadoop fs -ls /]怎么做? 有任何想法吗? 我尝试链接,但我未能实现它。 运行命令为容器: docker run -it –name hadoop -p 8080:8080 h_service jps […]

Hadoop集群。 2快速,4中,8慢机器?

我们将购买一些新的硬件,仅用于Hadoop集群,而我们仍然坚持要购买什么。 假设我们有$ 5k的预算,那么我们应该购买两台超级好机器,每台2500美元,四台每台1200美元左右,八台每台600美元左右。 用更慢的机器或最less的机器,Hadoop工作会更好吗? 或者,就像大多数事情“取决于”一样? 🙂

Hadoop HDFS:从命令行设置文件块大小?

当我将它加载到HDFS中时,我需要设置一个文件的块大小,使其小于簇大小。 例如,如果HDFS使用64mb的块,我可能想要一个大的文件被复制到32mb的块。 我之前在Hadoop工作负载中使用org.apache.hadoop.fs.FileSystem.create()函数完成了这个工作,但是有没有办法从命令行执行?

有没有办法在不提取的情况下对hdfs中的gzip内容进行grep?

我正在寻找一个方法来zgrep hdfs文件 就像是: hadoop fs -zcat hdfs://myfile.gz | grep "hi" 要么 hadoop fs -cat hdfs://myfile.gz | zgrep "hi" 它不真的为我工作是否有用命令行来实现这一点?

正向同步到HDFS? (或继续不完整的hdfs上传?)

任何人都有一个很好的build议做一个前向同步到HDFS? (“前向同步”与“双向同步”相反) 基本上我有大量的文件要放入HDFS。 它太大了,以至于我经常说在连接完成之前就失去了连通性。 我想要做的只是做一个“简历”我的file upload。 然而, hadoop fs -put将只是再次上传整个目录(或者如果存在抱怨)。 任何人都有一个很好的方法来继续不完整的hdfs上传?

在重新安装一个节点之后如何修复Hadoop HDFS集群中丢失的块?

我有一个5从属Hadoop集群(使用CDH4)—从站是DataNode和TaskNode运行的地方。 每个从设备有4个专用于HDFS存储的分区。 其中一个奴隶需要重新安装,这导致其中一个HDFS分区丢失。 在这一点上,HDFS抱怨约35K失踪的块。 几天后,重新安装完成,我把节点重新联机到Hadoop。 HDFS保持安全模式,新的服务器没有注册到其他节点块的数量附近。 例如,在DFS Admin下,新节点显示它具有6K块,而其他节点具有约400K块。 目前,新节点的DataNode日志显示它正在对各种块进行validation(或复制?),其中一些块已经失效。 我相信这是HDFS只是将现有数据复制到新节点。 validation示例: 2013-08-09 17:05:02,113 INFO org.apache.hadoop.hdfs.server.datanode.BlockPoolSliceScanner: Verification succeeded for BP-143510735-141.212.113.141-1343417513962:blk_6568189110100209829_1733272 失败的例子: 2013-08-09 17:04:48,100 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: meez02.eecs.umich.edu:50010:DataXceiver error processing REPLACE_BLOCK operation src: /141.212.113.141:52192 dest: /141.212.113.65:50010 org.apache.hadoop.hdfs.server.datanode.ReplicaAlreadyExistsException: Block BP-143510735-141.212.113.141-1343417513962:blk_-4515068373845130948_756319 already exists in state FINALIZED and thus cannot be created. at org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl.createTemporary(FsDatasetImpl.java:813) at org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl.createTemporary(FsDatasetImpl.java:92) at org.apache.hadoop.hdfs.server.datanode.BlockReceiver.<init>(BlockReceiver.java:155) at org.apache.hadoop.hdfs.server.datanode.DataXceiver.replaceBlock(DataXceiver.java:846) at […]

Hadoop HDFS备份和DR策略

我们正在准备实施我们的第一个Hadoop集群。 因此,我们从四个节点的设置开始小。 (1个主节点和3个工作节点)每个节点将有6TB的存储空间。 (6 x 1TB磁盘)我们使用了一个SuperMicro 4节点机箱,所有四个节点共用一个4U机箱。 我们现在正在考虑如何备份这个解决scheme以进行灾难恢复。 (思考机架或站点丢失,而不是驱动器丢失)最好的解决scheme似乎是一个群集到群集的副本。 虽然我也读过关于复制NAS或SMB共享数据的人。 另外,我们将通过传统的备份方式来备份主节点。 我只关心HDFS数据。 这是我的问题: 1)对于群集到群集的副本,我可以设置具有大量存储的SINGLE节点群集来充当我的场外副本吗? 我不关心它的性能,只是存在和能够保存整个数据集。 (恢复时间不是一个问题,因为这个集群不是任务关键)复制是否可以安排,以便它只能运行一次,等等? 2)对于SMB或NAS选项,这是如何工作的? 目标磁盘是否需要格式化HDFS? 我需要全部备份三个工作节点中的每一个吗? 还是有一些智能脚本可以备份没有奇偶校验的数据集? 我不是很熟悉这个解决scheme,只能在网上看到它的参考。 我没有太多的运气find资源或信息。 我也对Hadoop HDFS的其他DR选项开放。 我们的目标是获取HDFS数据集的完整副本,以便我们可以使用它来从机架或站点丢失中恢复。 谢谢!

Hadoop磁盘失败,你做什么?

我想知道一个Hadoop服务器磁盘发生故障时应该怎么做的策略。 比方说,我有多个(> 15个)Hadoop服务器和1个名称节点,并且从属设备上的6个磁盘中的一个停止工作,磁盘通过SAS连接。 我不关心从这个磁盘检索数据,而是关于保持群集运行的一般策略。 你是做什么?

一个hadoop工作可以暂停或暂停吗?

我正在使用hadoop-0.20.2。 看着hadoop fs 。 我能够杀死或失败的个人任务。 有没有办法暂停它,以便地图插槽释放另一个任务?