Articles of Hadoop的

从mac os狮子开始hadoop

我想在我的MacBook Pro上启动hadoop,我完成了apache所说的所有步骤。 当我使用命令“bin / start-all.sh”时,我得到这个: starting namenode, logging to /Users/alibozorgkhan/Desktop/hadoop-0.20.203.0/bin/../logs/hadoop-alibozorgkhan-namenode-d142-058-172-111.wireless.sfu.ca.out localhost: starting datanode, logging to /Users/alibozorgkhan/Desktop/hadoop-0.20.203.0/bin/../logs/hadoop-alibozorgkhan-datanode-d142-058-172-111.wireless.sfu.ca.out localhost: starting secondarynamenode, logging to /Users/alibozorgkhan/Desktop/hadoop-0.20.203.0/bin/../logs/hadoop-alibozorgkhan-secondarynamenode-d142-058-172-111.wireless.sfu.ca.out starting jobtracker, logging to /Users/alibozorgkhan/Desktop/hadoop-0.20.203.0/bin/../logs/hadoop-alibozorgkhan-jobtracker-d142-058-172-111.wireless.sfu.ca.out localhost: starting tasktracker, logging to /Users/alibozorgkhan/Desktop/hadoop-0.20.203.0/bin/../logs/hadoop-alibozorgkhan-tasktracker-d142-058-172-111.wireless.sfu.ca.out Hadoop无法启动。 我检查了datanode日志,它有这样的: 2011-10-06 18:03:45,513 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.lang.NullPointerException at org.apache.hadoop.net.NetUtils.createSocketAddr(NetUtils.java:136) at org.apache.hadoop.hdfs.server.namenode.NameNode.getAddress(NameNode.java:176) at org.apache.hadoop.hdfs.server.namenode.NameNode.getAddress(NameNode.java:206) at org.apache.hadoop.hdfs.server.namenode.NameNode.getServiceAddress(NameNode.java:200) at org.apache.hadoop.hdfs.server.datanode.DataNode.startDataNode(DataNode.java:306) at org.apache.hadoop.hdfs.server.datanode.DataNode.<init>(DataNode.java:268) at org.apache.hadoop.hdfs.server.datanode.DataNode.makeInstance(DataNode.java:1480) at […]

Hadoop生态系统web仪表板

我试图find一个工具,这将显示我的Hadoop生态系统的状态,健康状况,运行任务等概述。我试图谷歌,但没有find任何。 有一些不错的有用的工具吗?

为Linux KDC Realm设置Windows 10客户端

我build立了一个KDC服务器,并创build了一个EXAMPLE.COM 。 这是我的krb5.conf文件: [libdefaults] renew_lifetime = 7d forwardable = true default_realm = EXAMPLE.COM ticket_lifetime = 24h dns_lookup_realm = false dns_lookup_kdc = false default_ccache_name = /tmp/krb5cc_%{uid} #default_tgs_enctypes = aes des3-cbc-sha1 rc4 des-cbc-md5 #default_tkt_enctypes = aes des3-cbc-sha1 rc4 des-cbc-md5 [logging] default = FILE:/var/log/krb5kdc.log admin_server = FILE:/var/log/kadmind.log kdc = FILE:/var/log/krb5kdc.log [realms] EXAMPLE.COM = { admin_server = my.linux-server.de kdc […]

PXE启动Linux – 哪些目录必须是可写的?

我打算build立一个小的Hadoop集群,其中从节点从中央PXE服务器启动并运行,以简化部署和更新,并使从属设备上的所有磁盘几乎被HDFS垄断。 但是,我想我仍然必须在从节点上为/ tmp和/ var / log保留一些空间,我不想只把它们放在一个ramdisk中,因为我想让它们在崩溃后进行debugging因为RAM比磁盘稀less)。 因此,这些机器可能会从远程PXE服务器启动,从此处挂载它们的/只读,然后通过sdd1为HDFS数据分区挂载/ dev / sda1,为/ tmp挂载/ dev / sda2,为/ var挂载/ dev / sdb2 /日志。 我的问题是,有没有其他的目录需要写入? 假设我们让Hadoop等login到/ var / log。 (这是一个明智的build筑总体?) 编辑:不要担心交换,我打算做这些swapless,OOM杀手比颠簸更可取。

pipe理(hadoop)群集的最佳实践

我最近一直在玩Hadoop。 我有一个六节点的集群,运行HDFS,并运行了一些MapRed作业。 到现在为止还挺好。 不过,我现在正在更系统地做更多的节点。 我们的基础系统是Ubuntu,目前的设置已经使用apt(安装正确的java运行时)和ssh / scp(传播出各种conf文件)进行pipe理。 这显然不是随着时间的推移而扩展的。 有没有人有任何经验的良好的系统pipe理(可能略有异构:不同的磁盘大小,每个节点上不同数量的cpu)hadoop集群自动? 我会考虑无盘启动 – 但想象一下,在一个大型的群集中,启动和运行群集可能在服务于操作系统的机器上是瓶颈的。 还是某种forms的分布式的debian易于保持机器本地环境的同步? 而且,人们如何通过许多(可能是异构的)机器成功pipe理conf文件呢? 首先十分感谢, 亚历克斯

parsing后解释exim日志文件

我parsingexim日志文件,并由于我的处理方法,失去此文件中的所有条目的原始顺序。 我通过他们的交易ID重build交易(即1OfiYX-0000Ev-7k ),但仍然没有办法确定原来的订单。 <= , => , == , **字符的原始顺序问题,对不对? 有没有办法重build订单没有任何额外的信息? Αντίο

hadoop-config.sh在bin /和libexec /

在设置hadoop时,我发现hadoop-config.sh脚本存在于两个目录bin /和libexec /中。 这两个文件是相同的。 在查看脚本时,我发现如果hadoop-config.sh存在于libexec中,那么它将被执行。 如果不是,那么bin /下的那个被调用。 在两个目录中保留相同文件的目的是什么?

Hadoop – 名称节点和数据节点在同一台机器上

我们有7个相同的物理服务器(2×8核心CPU,128GB RAM,8x 6TB磁盘),将用于Hadoop。 所有的机器都连接到双10G接口的10G交换机。 由于我们没有很多机器,所以我们希望使用其中一台机器作为名称节点和数据节点。 这种configuration是否会导致任何性能问题? Hadoop系统将用于学术目的,名称节点上的数据节点是否与其他数据节点具有相同的性能? 如果这不是一个好的解决scheme,这个configuration的名称节点的最低要求是什么?

Hadoop:黑名单tasktracker

我在6机器设置上运行Hadoop作业(使用Hadoop 0.20.2); 一台机器是namenode / secondary node / job tracker(master),其他5台机器都是datanodes / tasktrackers(slave)。 这份工作有超过14000张地图,超过10%完成。 当我浏览作业跟踪器“作业详情”页面时,我看到: Status: Running Started at: Tue Jul 05 18:12:44 PDT 2011 Running for: 66hrs, 5mins, 4sec Job Cleanup: Pending Black-listed TaskTrackers: 1 我login到有问题的机器,我可以看到任务跟踪器进程正在运行,但机器没有任何工作(最高命令显示CPU利用率<10%)。 我已经用这些命令重新启动任务跟踪器节点 ./hadoop-daemon.sh stop tasktracker ./hadoop-daemon.sh start tasktracker 但节点仍然在黑名单中,任务跟踪器正在运行,但机器仍然没有执行任何工作。 问题 :有什么方法可以告诉Hadoop将其“黑名单”并将任务发送到节点? 希望不必重新开始工作? PS。 确认节点正在运行并在作业开始时执行任务。

无法以伪分布模式连接到HDFS

我按照这里的说明在伪分布式模式下安装hadoop。 但是,我无法连接到HDFS。 当我执行这个命令时: ./hadoop fs -ls / 我得到一个目录列表,就像我应该。 但是,当我执行这个命令时: ./hadoop fs -ls hdfs://localhost/ 我得到这个: 12/08/23 15:29:58 INFO ipc.Client: Retrying connect to server: localhost/127.0.0.1:8020. Already tried 0 time(s). 12/08/23 15:29:59 INFO ipc.Client: Retrying connect to server: localhost/127.0.0.1:8020. Already tried 1 time(s). 12/08/23 15:30:00 INFO ipc.Client: Retrying connect to server: localhost/127.0.0.1:8020. Already tried 2 time(s). 12/08/23 15:30:01 […]