Articles of Hadoop的

重新启动Hadoop(Secondary)Namenode时僵尸进程阻塞端口

我对Hadoop Namenode和Secondary Namenode有奇怪的问题。 我们的HDFS群集大部分时间都能顺利运行。 但是,无时无刻不在主要名称节点冻结(崩溃整个集群),或者次要名称节点冻结并停止制作检查点。 每当发生这种情况,我尝试重新启动挂起的服务失败,因为端口仍然被阻止: # service hadoop-namenode restart * Stopping Hadoop namenode: no namenode to stop * Starting Hadoop namenode: starting namenode, logging to /var/log/hadoop/hadoop-hdfs-namenode-HOST.out Error: Exception thrown by the agent : java.rmi.server.ExportException: Port already in use: 26100; nested exception is: java.net.BindException: Address already in use 但是,检查ps auxw的输出,没有Namenode正在运行。 检查哪个进程阻塞了端口: # netstat -tulpen | […]

是否可以在同一时间以联合模式和HA模式configurationhdfs?

我不明白是否可以在两种模式下同时configurationHDFS。 是否有意义? 有人可以在两种模式下显示HDFS的简单configuration吗? (nameNode1,nameNode2,nameNodeStandby1,nameNodeStandby2)

为什么Hadoop TeraSort不使用所有群集节点

题 关于hadoop中的TeraSort演示,请build议症状是否如预期的那样,或者应该分发工作量。 症状 启动Hadoop(集群中的3个节点)并在执行中运行TeraSort基准testing。 我预计所有3个节点都会忙,所有的CPU都会被利用(最高400%)。 但是,只有作业开始的节点处于忙碌状态,CPU没有被充分利用。 例如,如果它在sydspark02上启动,则顶部显示如下。 我想知道这是否如预期的那样,或者是否存在工作负载未在节点间分配的configuration问题。 sydspark02 top – 13:37:12 up 5 days, 2:58, 2 users, load average: 0.22, 0.06, 0.12 Tasks: 134 total, 1 running, 133 sleeping, 0 stopped, 0 zombie %Cpu(s): 27.5 us, 2.7 sy, 0.0 ni, 69.8 id, 0.0 wa, 0.0 hi, 0.1 si, 0.0 st KiB Mem: 8175980 total, […]

需要通过命令行对特定的hdfs数据块设置000权限

我试图设置“000”的权限到特定的块。 我使用下面的命令来查找块信息:su – hdfs -c“hdfs fsck -locations -files -blocks /user/rohit/partition_filter_table/india.25.20.101.95000” 现在,我想要将块“blk_1073746617_5811”的权限设置为“000”。 请让我们知道是否有任何命令或过程来设置相同的权限

YARN AM日志会报告terminal和sparkscalashell中显示的不同时间戳

我想了解为什么会发生以下情况: 我有一个Yarn和Spark运行正常的Docker容器,除了该容器的时间戳是我想要的X小时。 所以当我运行date它返回一个时间戳减去当前时间戳的X小时。 通过在docker run命令中传递一个TZ环境variables来解决上述问题,所以当我键入date我得到了正确的时间戳。 但是,当我在YARN中运行spark-submit (集群模式是yarn)应用程序时,AM日志中的时间戳仍然是错误的(减去X小时)。 通过在spark-submit : -conf 'spark.executor.extraJavaOptions=-Duser.timezone'和-conf 'spark.driver.extraJavaOptions=-Duser.timezone'为JVM传递一个时区设置来解决上述问题。 这告诉我,JVM YARN使用有一个问题。 但是,当试图从SparkScala shell获取date时间时,它将返回正确的时间(使用system.currenttimemillis() ),而不指定步骤4中的任何JVM设置。 问题 我怎么知道从YARN Application Master启动容器时使用的是什么JVM,以及SparkScala shell中的JVM? 为什么在shell / bash和spark-submit中运行有不同的时间戳?

如何防止在hadoop集群上执行任意可执行文件

我参与configurationHadoop集群以实现可审计性和安全性。 我是Hadoop生态系统的新手,但我有一个体面的基本知识。 我有一些担心,我希望有人能够指引我正确的方向。 如何确保经过身份validation和授权的用户无法控制整个群集的资源? 我如何确保经过authentication和授权的用户采取的所有措施都得到了适当的审核,以便我们可以看到他们采取了哪些措施的日志logging? 我组织中的一些人非常担心被授权和授权的用户可能能够执行“任意执行”,这对他们来说描述了一个场景,在这个场景中,某人能够为了自己的目的在pipe理员的控制之外征用群集。 这是否可以实际发生? 如果是这样,pipe理员如何防止它? 我正在使用Ranger,并安装了纱线和HDFS插件。

在VMware Workstation上运行的Ubuntu 10.04.1的多个实例上安装Hadoop

我想学习Hadoop,并通过编程来运行分布式计算。 我有一台安装了Windows 7 Professional的电脑。 在同一台PC上,我还安装了VMware Workstation 7上的Ubuntu 10.04.1。 我想知道下面是否可能以及如何做到: 在同一台工作站上安装多个Ubuntu虚拟机(这可以很容易地完成)。 在所有这些虚拟机上安装Hadoop,并将该体系结构视为多个节点。 请让我知道如何做到这一点(如果可能的话),以及如何testing。 更新: 这已经解决了。 我跟随这个博客,并完成它: 在Ubuntu Linux上运行Hadoop(单节点群集)

hadoop是否独自处理不同的节点HD尺寸?

我有一个单一的节点(伪分布式configuration),我正在考虑添加第二个从属节点。 如果奴隶有较less的高清容量,这有关系吗? 重新平衡会为自己带来什么? 我目前不是HADOOP的专家。

运行apache mahout quickstartryin时出现问题

我试图从快速入门运行mahout集群示例: https : //cwiki.apache.org/MAHOUT/clustering-of-synthetic-control-data.html 当运行这里指定的任何集群实现时,我会得到以下exception: 我不明白的是,我已经从网站上下载了最新的mahout副本,并使用maven构build它。 一个class级如何失踪? 任何帮助,高度赞赏。 谢谢。 Error: java.lang.ClassNotFoundException: org.apache.mahout.math.Vector at java.net.URLClassLoader$1.run(URLClassLoader.java:202) at java.security.AccessController.doPrivileged(Native Method) at java.net.URLClassLoader.findClass(URLClassLoader.java:190) at java.lang.ClassLoader.loadClass(ClassLoader.java:307) at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301) at java.lang.ClassLoader.loadClass(ClassLoader.java:248) at java.lang.Class.forName0(Native Method) at java.lang.Class.forName(Class.java:247) at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:762) at org.apache.hadoop.io.WritableName.getClass(WritableName.java:71) at org.apache.hadoop.io.SequenceFile$Reader.getValueClass(SequenceFile.java:1613) at org.apache.hadoop.io.SequenceFile$Reader.init(SequenceFile.java:1555) at org.apache.hadoop.io.SequenceFile$Reader.<init>(SequenceFile.java:1428) at org.apache.hadoop.io.SequenceFile$Reader.<init>(SequenceFile.java:1417) at org.apache.hadoop.io.SequenceFile$Reader.<init>(SequenceFile.java:1412) at org.apache.hadoop.mapreduce.lib.input.SequenceFileRecordReader.initialize(SequenceFileRecordReader.java:50) at org.apache.hadoop.mapred.MapTask$NewTrackingRecordReader.initialize(MapTask.java:418) at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:620) at org.apache.hadoop.mapred.MapTask.run(MapTask.java:305) at org.apache.hadoop.mapred.Child.main(Child.java:170) 11/06/19 […]

抄写logging分析

我决定使用抄写员logging所有的错误和要求的细节在我的网站进行分析。 如何使用抄写日志数据来分析数据。 有没有这个或抄写服务器程序的任何工具? 我使用PHP作为我的脚本语言