Hadoop的服务器 Gind.cn

从mac os狮子开始hadoop

我想在我的MacBook Pro上启动hadoop，我完成了apache所说的所有步骤。当我使用命令“bin / start-all.sh”时，我得到这个： starting namenode, logging to /Users/alibozorgkhan/Desktop/hadoop-0.20.203.0/bin/../logs/hadoop-alibozorgkhan-namenode-d142-058-172-111.wireless.sfu.ca.out localhost: starting datanode, logging to /Users/alibozorgkhan/Desktop/hadoop-0.20.203.0/bin/../logs/hadoop-alibozorgkhan-datanode-d142-058-172-111.wireless.sfu.ca.out localhost: starting secondarynamenode, logging to /Users/alibozorgkhan/Desktop/hadoop-0.20.203.0/bin/../logs/hadoop-alibozorgkhan-secondarynamenode-d142-058-172-111.wireless.sfu.ca.out starting jobtracker, logging to /Users/alibozorgkhan/Desktop/hadoop-0.20.203.0/bin/../logs/hadoop-alibozorgkhan-jobtracker-d142-058-172-111.wireless.sfu.ca.out localhost: starting tasktracker, logging to /Users/alibozorgkhan/Desktop/hadoop-0.20.203.0/bin/../logs/hadoop-alibozorgkhan-tasktracker-d142-058-172-111.wireless.sfu.ca.out Hadoop无法启动。我检查了datanode日志，它有这样的： 2011-10-06 18:03:45,513 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.lang.NullPointerException at org.apache.hadoop.net.NetUtils.createSocketAddr(NetUtils.java:136) at org.apache.hadoop.hdfs.server.namenode.NameNode.getAddress(NameNode.java:176) at org.apache.hadoop.hdfs.server.namenode.NameNode.getAddress(NameNode.java:206) at org.apache.hadoop.hdfs.server.namenode.NameNode.getServiceAddress(NameNode.java:200) at org.apache.hadoop.hdfs.server.datanode.DataNode.startDataNode(DataNode.java:306) at org.apache.hadoop.hdfs.server.datanode.DataNode.<init>(DataNode.java:268) at org.apache.hadoop.hdfs.server.datanode.DataNode.makeInstance(DataNode.java:1480) at […]

Hadoop生态系统web仪表板

我试图find一个工具，这将显示我的Hadoop生态系统的状态，健康状况，运行任务等概述。我试图谷歌，但没有find任何。有一些不错的有用的工具吗？

为Linux KDC Realm设置Windows 10客户端

我build立了一个KDC服务器，并创build了一个EXAMPLE.COM 。这是我的krb5.conf文件： [libdefaults] renew_lifetime = 7d forwardable = true default_realm = EXAMPLE.COM ticket_lifetime = 24h dns_lookup_realm = false dns_lookup_kdc = false default_ccache_name = /tmp/krb5cc_%{uid} #default_tgs_enctypes = aes des3-cbc-sha1 rc4 des-cbc-md5 #default_tkt_enctypes = aes des3-cbc-sha1 rc4 des-cbc-md5 [logging] default = FILE:/var/log/krb5kdc.log admin_server = FILE:/var/log/kadmind.log kdc = FILE:/var/log/krb5kdc.log [realms] EXAMPLE.COM = { admin_server = my.linux-server.de kdc […]

PXE启动Linux – 哪些目录必须是可写的？

我打算build立一个小的Hadoop集群，其中从节点从中央PXE服务器启动并运行，以简化部署和更新，并使从属设备上的所有磁盘几乎被HDFS垄断。但是，我想我仍然必须在从节点上为/ tmp和/ var / log保留一些空间，我不想只把它们放在一个ramdisk中，因为我想让它们在崩溃后进行debugging因为RAM比磁盘稀less）。因此，这些机器可能会从远程PXE服务器启动，从此处挂载它们的/只读，然后通过sdd1为HDFS数据分区挂载/ dev / sda1，为/ tmp挂载/ dev / sda2，为/ var挂载/ dev / sdb2 /日志。我的问题是，有没有其他的目录需要写入？假设我们让Hadoop等login到/ var / log。（这是一个明智的build筑总体？）编辑：不要担心交换，我打算做这些swapless，OOM杀手比颠簸更可取。

pipe理（hadoop）群集的最佳实践

我最近一直在玩Hadoop。我有一个六节点的集群，运行HDFS，并运行了一些MapRed作业。到现在为止还挺好。不过，我现在正在更系统地做更多的节点。我们的基础系统是Ubuntu，目前的设置已经使用apt（安装正确的java运行时）和ssh / scp（传播出各种conf文件）进行pipe理。这显然不是随着时间的推移而扩展的。有没有人有任何经验的良好的系统pipe理（可能略有异构：不同的磁盘大小，每个节点上不同数量的cpu）hadoop集群自动？我会考虑无盘启动 – 但想象一下，在一个大型的群集中，启动和运行群集可能在服务于操作系统的机器上是瓶颈的。还是某种forms的分布式的debian易于保持机器本地环境的同步？而且，人们如何通过许多（可能是异构的）机器成功pipe理conf文件呢？首先十分感谢，亚历克斯

parsing后解释exim日志文件

我parsingexim日志文件，并由于我的处理方法，失去此文件中的所有条目的原始顺序。我通过他们的交易ID重build交易（即1OfiYX-0000Ev-7k ），但仍然没有办法确定原来的订单。 <= ， => ， == ， **字符的原始顺序问题，对不对？有没有办法重build订单没有任何额外的信息？ Αντίο

hadoop-config.sh在bin /和libexec /

在设置hadoop时，我发现hadoop-config.sh脚本存在于两个目录bin /和libexec /中。这两个文件是相同的。在查看脚本时，我发现如果hadoop-config.sh存在于libexec中，那么它将被执行。如果不是，那么bin /下的那个被调用。在两个目录中保留相同文件的目的是什么？

Hadoop – 名称节点和数据节点在同一台机器上

我们有7个相同的物理服务器（2×8核心CPU，128GB RAM，8x 6TB磁盘），将用于Hadoop。所有的机器都连接到双10G接口的10G交换机。由于我们没有很多机器，所以我们希望使用其中一台机器作为名称节点和数据节点。这种configuration是否会导致任何性能问题？ Hadoop系统将用于学术目的，名称节点上的数据节点是否与其他数据节点具有相同的性能？如果这不是一个好的解决scheme，这个configuration的名称节点的最低要求是什么？

Hadoop：黑名单tasktracker

我在6机器设置上运行Hadoop作业（使用Hadoop 0.20.2）; 一台机器是namenode / secondary node / job tracker（master），其他5台机器都是datanodes / tasktrackers（slave）。这份工作有超过14000张地图，超过10％完成。当我浏览作业跟踪器“作业详情”页面时，我看到： Status: Running Started at: Tue Jul 05 18:12:44 PDT 2011 Running for: 66hrs, 5mins, 4sec Job Cleanup: Pending Black-listed TaskTrackers: 1 我login到有问题的机器，我可以看到任务跟踪器进程正在运行，但机器没有任何工作（最高命令显示CPU利用率<10％）。我已经用这些命令重新启动任务跟踪器节点 ./hadoop-daemon.sh stop tasktracker ./hadoop-daemon.sh start tasktracker 但节点仍然在黑名单中，任务跟踪器正在运行，但机器仍然没有执行任何工作。问题：有什么方法可以告诉Hadoop将其“黑名单”并将任务发送到节点？希望不必重新开始工作？ PS。确认节点正在运行并在作业开始时执行任务。

无法以伪分布模式连接到HDFS

我按照这里的说明在伪分布式模式下安装hadoop。但是，我无法连接到HDFS。当我执行这个命令时： ./hadoop fs -ls / 我得到一个目录列表，就像我应该。但是，当我执行这个命令时： ./hadoop fs -ls hdfs://localhost/ 我得到这个： 12/08/23 15:29:58 INFO ipc.Client: Retrying connect to server: localhost/127.0.0.1:8020. Already tried 0 time(s). 12/08/23 15:29:59 INFO ipc.Client: Retrying connect to server: localhost/127.0.0.1:8020. Already tried 1 time(s). 12/08/23 15:30:00 INFO ipc.Client: Retrying connect to server: localhost/127.0.0.1:8020. Already tried 2 time(s). 12/08/23 15:30:01 […]

Intereting Posts

间歇性的高ping /延迟问题 Powershell v1searchstring从variables 在Windows 2008中导入计划任务时“没有在帐户名称和安全ID之间进行映射”？如何禁用每30分钟发生的自动计划木偶运行？自动将数据备份到另一台电脑上不在办公室的例外使用CMAK映射驱动器的VPN 保护PHP Web服务器从raid0安装重新挂载两个旧的磁盘来恢复数据 PECL命令产生长长的错误列表限制PHP-FPM只为特定目录下的文件提供服务将NFS目录挂载为某些用户的只读 Nginx替代监听将Linux主机复制到新硬件在SQL Server中超时保存表

Articles of Hadoop的