Hadoop的服务器 Gind.cn

重新启动Hadoop（Secondary）Namenode时僵尸进程阻塞端口

我对Hadoop Namenode和Secondary Namenode有奇怪的问题。我们的HDFS群集大部分时间都能顺利运行。但是，无时无刻不在主要名称节点冻结（崩溃整个集群），或者次要名称节点冻结并停止制作检查点。每当发生这种情况，我尝试重新启动挂起的服务失败，因为端口仍然被阻止： # service hadoop-namenode restart * Stopping Hadoop namenode: no namenode to stop * Starting Hadoop namenode: starting namenode, logging to /var/log/hadoop/hadoop-hdfs-namenode-HOST.out Error: Exception thrown by the agent : java.rmi.server.ExportException: Port already in use: 26100; nested exception is: java.net.BindException: Address already in use 但是，检查ps auxw的输出，没有Namenode正在运行。检查哪个进程阻塞了端口： # netstat -tulpen | […]

是否可以在同一时间以联合模式和HA模式configurationhdfs？

我不明白是否可以在两种模式下同时configurationHDFS。是否有意义？有人可以在两种模式下显示HDFS的简单configuration吗？（nameNode1，nameNode2，nameNodeStandby1，nameNodeStandby2）

为什么Hadoop TeraSort不使用所有群集节点

题关于hadoop中的TeraSort演示，请build议症状是否如预期的那样，或者应该分发工作量。症状启动Hadoop（集群中的3个节点）并在执行中运行TeraSort基准testing。我预计所有3个节点都会忙，所有的CPU都会被利用（最高400％）。但是，只有作业开始的节点处于忙碌状态，CPU没有被充分利用。例如，如果它在sydspark02上启动，则顶部显示如下。我想知道这是否如预期的那样，或者是否存在工作负载未在节点间分配的configuration问题。 sydspark02 top – 13:37:12 up 5 days, 2:58, 2 users, load average: 0.22, 0.06, 0.12 Tasks: 134 total, 1 running, 133 sleeping, 0 stopped, 0 zombie %Cpu(s): 27.5 us, 2.7 sy, 0.0 ni, 69.8 id, 0.0 wa, 0.0 hi, 0.1 si, 0.0 st KiB Mem: 8175980 total, […]

需要通过命令行对特定的hdfs数据块设置000权限

我试图设置“000”的权限到特定的块。我使用下面的命令来查找块信息：su – hdfs -c“hdfs fsck -locations -files -blocks /user/rohit/partition_filter_table/india.25.20.101.95000” 现在，我想要将块“blk_1073746617_5811”的权限设置为“000”。请让我们知道是否有任何命令或过程来设置相同的权限

YARN AM日志会报告terminal和sparkscalashell中显示的不同时间戳

我想了解为什么会发生以下情况：我有一个Yarn和Spark运行正常的Docker容器，除了该容器的时间戳是我想要的X小时。所以当我运行date它返回一个时间戳减去当前时间戳的X小时。通过在docker run命令中传递一个TZ环境variables来解决上述问题，所以当我键入date我得到了正确的时间戳。但是，当我在YARN中运行spark-submit （集群模式是yarn）应用程序时，AM日志中的时间戳仍然是错误的（减去X小时）。通过在spark-submit ： -conf 'spark.executor.extraJavaOptions=-Duser.timezone'和-conf 'spark.driver.extraJavaOptions=-Duser.timezone'为JVM传递一个时区设置来解决上述问题。这告诉我，JVM YARN使用有一个问题。但是，当试图从SparkScala shell获取date时间时，它将返回正确的时间（使用system.currenttimemillis() ），而不指定步骤4中的任何JVM设置。问题我怎么知道从YARN Application Master启动容器时使用的是什么JVM，以及SparkScala shell中的JVM？为什么在shell / bash和spark-submit中运行有不同的时间戳？

如何防止在hadoop集群上执行任意可执行文件

我参与configurationHadoop集群以实现可审计性和安全性。我是Hadoop生态系统的新手，但我有一个体面的基本知识。我有一些担心，我希望有人能够指引我正确的方向。如何确保经过身份validation和授权的用户无法控制整个群集的资源？我如何确保经过authentication和授权的用户采取的所有措施都得到了适当的审核，以便我们可以看到他们采取了哪些措施的日志logging？我组织中的一些人非常担心被授权和授权的用户可能能够执行“任意执行”，这对他们来说描述了一个场景，在这个场景中，某人能够为了自己的目的在pipe理员的控制之外征用群集。这是否可以实际发生？如果是这样，pipe理员如何防止它？我正在使用Ranger，并安装了纱线和HDFS插件。

在VMware Workstation上运行的Ubuntu 10.04.1的多个实例上安装Hadoop

我想学习Hadoop，并通过编程来运行分布式计算。我有一台安装了Windows 7 Professional的电脑。在同一台PC上，我还安装了VMware Workstation 7上的Ubuntu 10.04.1。我想知道下面是否可能以及如何做到：在同一台工作站上安装多个Ubuntu虚拟机（这可以很容易地完成）。在所有这些虚拟机上安装Hadoop，并将该体系结构视为多个节点。请让我知道如何做到这一点（如果可能的话），以及如何testing。更新：这已经解决了。我跟随这个博客，并完成它：在Ubuntu Linux上运行Hadoop（单节点群集）

hadoop是否独自处理不同的节点HD尺寸？

我有一个单一的节点（伪分布式configuration），我正在考虑添加第二个从属节点。如果奴隶有较less的高清容量，这有关系吗？重新平衡会为自己带来什么？我目前不是HADOOP的专家。

运行apache mahout quickstartryin时出现问题

我试图从快速入门运行mahout集群示例： https ： //cwiki.apache.org/MAHOUT/clustering-of-synthetic-control-data.html 当运行这里指定的任何集群实现时，我会得到以下exception：我不明白的是，我已经从网站上下载了最新的mahout副本，并使用maven构build它。一个class级如何失踪？任何帮助，高度赞赏。谢谢。 Error: java.lang.ClassNotFoundException: org.apache.mahout.math.Vector at java.net.URLClassLoader$1.run(URLClassLoader.java:202) at java.security.AccessController.doPrivileged(Native Method) at java.net.URLClassLoader.findClass(URLClassLoader.java:190) at java.lang.ClassLoader.loadClass(ClassLoader.java:307) at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301) at java.lang.ClassLoader.loadClass(ClassLoader.java:248) at java.lang.Class.forName0(Native Method) at java.lang.Class.forName(Class.java:247) at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:762) at org.apache.hadoop.io.WritableName.getClass(WritableName.java:71) at org.apache.hadoop.io.SequenceFile$Reader.getValueClass(SequenceFile.java:1613) at org.apache.hadoop.io.SequenceFile$Reader.init(SequenceFile.java:1555) at org.apache.hadoop.io.SequenceFile$Reader.<init>(SequenceFile.java:1428) at org.apache.hadoop.io.SequenceFile$Reader.<init>(SequenceFile.java:1417) at org.apache.hadoop.io.SequenceFile$Reader.<init>(SequenceFile.java:1412) at org.apache.hadoop.mapreduce.lib.input.SequenceFileRecordReader.initialize(SequenceFileRecordReader.java:50) at org.apache.hadoop.mapred.MapTask$NewTrackingRecordReader.initialize(MapTask.java:418) at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:620) at org.apache.hadoop.mapred.MapTask.run(MapTask.java:305) at org.apache.hadoop.mapred.Child.main(Child.java:170) 11/06/19 […]

抄写logging分析

我决定使用抄写员logging所有的错误和要求的细节在我的网站进行分析。如何使用抄写日志数据来分析数据。有没有这个或抄写服务器程序的任何工具？我使用PHP作为我的脚本语言

Intereting Posts

Centos在Xen问题上安装 IP表是在Ubuntu 14.04中保留的 Duplicity完整的备份使用寿命和效率无法通过openvpn ping elastix电话系统在GNU / Linux上调整networking堆栈缓冲区大小运行Fedora 15的Virtualbox不断丢失Windows共享的CIF挂载为什么SQL Server Management Studio在更改脚本中生成两个重命名？为新用户/计算机自动安装所有软件的最简单方法？在Mikrotik上为VoIP设置ToS / QoS 更改用户以调用postfix传输脚本 Office 2010到非pipe理员在Debian上添加用户到组www-data safe？甚至pipe理员和SYSTEM访问被拒绝时如何接pipe文件夹？你如何恢复你的RDS主用户名？ Exchange 2010迁移到Office 365

Articles of Hadoop的