Hadoop的服务器 Gind.cn

Cloudera Manager是否需要持续进行Root访问？

安装Cloudera Manager 4时，它会要求无密码sudo用户的root密码来安装软件包。这个帐户是否需要保留，还是只是初始设置？

如何连接在同一主机上运行的两个docker容器？

我有两个docker集装箱运行 docker ps 结果 CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES 0bfd25abbfc6 f_service:latest "/usr/local/start-fl 13 seconds ago Up 2 seconds 0.0.0.0:8081->8081/tcp flume 6a1d974f4e3e h_service:latest "/usr/local/start-al 2 minutes ago Up About a minute 0.0.0.0:8080->8080/tcp hadoop Hadoop服务在hadoop容器中运行[即datanode，namenode，jobtracker，tasktracker，secondarynamenode] Flume服务正在使用flume contianer [即flume-agent] 我想在flume容器上运行hadoop命令[即hadoop fs -ls /]怎么做？有任何想法吗？我尝试链接，但我未能实现它。运行命令为容器： docker run -it –name hadoop -p 8080:8080 h_service jps […]

Hadoop集群。 2快速，4中，8慢机器？

我们将购买一些新的硬件，仅用于Hadoop集群，而我们仍然坚持要购买什么。假设我们有$ 5k的预算，那么我们应该购买两台超级好机器，每台2500美元，四台每台1200美元左右，八台每台600美元左右。用更慢的机器或最less的机器，Hadoop工作会更好吗？或者，就像大多数事情“取决于”一样？ 🙂

Hadoop HDFS：从命令行设置文件块大小？

当我将它加载到HDFS中时，我需要设置一个文件的块大小，使其小于簇大小。例如，如果HDFS使用64mb的块，我可能想要一个大的文件被复制到32mb的块。我之前在Hadoop工作负载中使用org.apache.hadoop.fs.FileSystem.create（）函数完成了这个工作，但是有没有办法从命令行执行？

有没有办法在不提取的情况下对hdfs中的gzip内容进行grep？

我正在寻找一个方法来zgrep hdfs文件就像是： hadoop fs -zcat hdfs://myfile.gz | grep "hi" 要么 hadoop fs -cat hdfs://myfile.gz | zgrep "hi" 它不真的为我工作是否有用命令行来实现这一点？

正向同步到HDFS？（或继续不完整的hdfs上传？）

任何人都有一个很好的build议做一个前向同步到HDFS？（“前向同步”与“双向同步”相反）基本上我有大量的文件要放入HDFS。它太大了，以至于我经常说在连接完成之前就失去了连通性。我想要做的只是做一个“简历”我的file upload。然而， hadoop fs -put将只是再次上传整个目录（或者如果存在抱怨）。任何人都有一个很好的方法来继续不完整的hdfs上传？

在重新安装一个节点之后如何修复Hadoop HDFS集群中丢失的块？

我有一个5从属Hadoop集群（使用CDH4）—从站是DataNode和TaskNode运行的地方。每个从设备有4个专用于HDFS存储的分区。其中一个奴隶需要重新安装，这导致其中一个HDFS分区丢失。在这一点上，HDFS抱怨约35K失踪的块。几天后，重新安装完成，我把节点重新联机到Hadoop。 HDFS保持安全模式，新的服务器没有注册到其他节点块的数量附近。例如，在DFS Admin下，新节点显示它具有6K块，而其他节点具有约400K块。目前，新节点的DataNode日志显示它正在对各种块进行validation（或复制？），其中一些块已经失效。我相信这是HDFS只是将现有数据复制到新节点。 validation示例： 2013-08-09 17:05:02,113 INFO org.apache.hadoop.hdfs.server.datanode.BlockPoolSliceScanner: Verification succeeded for BP-143510735-141.212.113.141-1343417513962:blk_6568189110100209829_1733272 失败的例子： 2013-08-09 17:04:48,100 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: meez02.eecs.umich.edu:50010:DataXceiver error processing REPLACE_BLOCK operation src: /141.212.113.141:52192 dest: /141.212.113.65:50010 org.apache.hadoop.hdfs.server.datanode.ReplicaAlreadyExistsException: Block BP-143510735-141.212.113.141-1343417513962:blk_-4515068373845130948_756319 already exists in state FINALIZED and thus cannot be created. at org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl.createTemporary(FsDatasetImpl.java:813) at org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl.createTemporary(FsDatasetImpl.java:92) at org.apache.hadoop.hdfs.server.datanode.BlockReceiver.<init>(BlockReceiver.java:155) at org.apache.hadoop.hdfs.server.datanode.DataXceiver.replaceBlock(DataXceiver.java:846) at […]

Hadoop HDFS备份和DR策略

我们正在准备实施我们的第一个Hadoop集群。因此，我们从四个节点的设置开始小。（1个主节点和3个工作节点）每个节点将有6TB的存储空间。（6 x 1TB磁盘）我们使用了一个SuperMicro 4节点机箱，所有四个节点共用一个4U机箱。我们现在正在考虑如何备份这个解决scheme以进行灾难恢复。（思考机架或站点丢失，而不是驱动器丢失）最好的解决scheme似乎是一个群集到群集的副本。虽然我也读过关于复制NAS或SMB共享数据的人。另外，我们将通过传统的备份方式来备份主节点。我只关心HDFS数据。这是我的问题： 1）对于群集到群集的副本，我可以设置具有大量存储的SINGLE节点群集来充当我的场外副本吗？我不关心它的性能，只是存在和能够保存整个数据集。（恢复时间不是一个问题，因为这个集群不是任务关键）复制是否可以安排，以便它只能运行一次，等等？ 2）对于SMB或NAS选项，这是如何工作的？目标磁盘是否需要格式化HDFS？我需要全部备份三个工作节点中的每一个吗？还是有一些智能脚本可以备份没有奇偶校验的数据集？我不是很熟悉这个解决scheme，只能在网上看到它的参考。我没有太多的运气find资源或信息。我也对Hadoop HDFS的其他DR选项开放。我们的目标是获取HDFS数据集的完整副本，以便我们可以使用它来从机架或站点丢失中恢复。谢谢！

Hadoop磁盘失败，你做什么？

我想知道一个Hadoop服务器磁盘发生故障时应该怎么做的策略。比方说，我有多个（> 15个）Hadoop服务器和1个名称节点，并且从属设备上的6个磁盘中的一个停止工作，磁盘通过SAS连接。我不关心从这个磁盘检索数据，而是关于保持群集运行的一般策略。你是做什么？

一个hadoop工作可以暂停或暂停吗？

我正在使用hadoop-0.20.2。看着hadoop fs 。我能够杀死或失败的个人任务。有没有办法暂停它，以便地图插槽释放另一个任务？

Intereting Posts

在CentOS 6上运行两个apache（httpd）服务器无法让ZSH在CentOS上工作 OMS中的计算机组 – 如何将新计算机添加到OMS中的现有组？设置SMTP服务器将全局签名添加到来自Google Apps for Business的所有电子邮件重写规则的apache错误日志你在哪个平台上运行你的Java应用程序？在Microsoft cmd.exe中使用for循环，我如何处理只有特定扩展名的文件？两个不同的目录与Nginx 在CentOS 5.3中启动kde的正确方法是？最好的书来学习Sharepointpipe理（MOSS）？ Docker Bitbucket开始停止：casihazelcast.HazelcastLifecycle更新Hazelcast实例function NGINX将除letsencrypt以外的所有内容redirect到https Nginx基本authentication的具体位置我们的服务器有多脆弱？ Dns – 通配符与cname子域名

Articles of Hadoop的