我们正在寻求一些帮助,决定购买什么硬件来支持内部Hadoop集群。 我公司目前使用1台Hadoop专用服务器,其中有196GB内存和24个内核以及6个1TB SATA硬盘。 我们想扩大我们的能力,但不确定要买什么最好的价值。 我们希望在设备上花费大约1万英镑,并考虑了dell PE m710等刀片服务器,我们可以获得8个刀片服务器,每个刀片服务器包含12个内核,288 GB ram和4×600 GB SAS驱动器以及预算shell。 这是一个很好的利用现有的资金,或更好的规格较新的服务器更合适? 非常感谢您的帮助
我有5台服务器,都有类似的硬件(i7,4台2TB 7200转硬盘,2台4台5400转硬盘,430瓦电源),最近机器已经冻结了。 这在最后一天左右变得更糟了,我不能指出任何解释。 最近的一个变化是增加了两个4tb硬盘。 当运行一个大的Hadoop工作时,崩溃最常发生,所以我原本以为负载导致了一些问题,但是昨晚一台服务器在箱子上没有任何沉重的负担(或者我认为),而不是HDFS(Hadoop的分布式文件系统)可能会重新平衡,因为五个节点中有两个离线。 如果我把监视器和键盘插到这些冻结的机器之一上,我不能在屏幕上得到任何回应或反馈。 关于可能的失败点和/或不同日志的任何想法,我可以看看调查? 谢谢 编辑:系统正在运行Ubuntu 10.04 编辑2:更多硬件上: 英特尔酷睿i7-930 bloomfield 2.8GHz处理器(四核) 12GB(6×2GB)金士顿DDR3 1333 RAM 安泰克earthwatts绿色430电源 微星x58m lga 1366主板 编辑3:我暂时将两个4TB硬盘驱动器取出,看看它是否有助于崩溃,到目前为止,即使在Hadoop负载很重的情况下,服务器仍然保持运行。 我很快就会试用功率表来确认是否耗电太多。
我有一个局域网中的5个Windows机器(双核,3GB)都join到一个域中。 我有一个程序,需要8核心和10 GB在给定的SLA时间运行。 我可以使用什么平台/工具来利用这些机器的CPU /内存和其他资源。 Hadoop? 任何其他分布式计算平台? 但是那些需要我重新devise我想要运行的程序。 任何现成的工具,可以帮助我创build一个更大的计算机与各种需要我改变我的程序代码。
我是一个工程学校的初级系统pipe理员。 其中一位教授从雅虎获得了45台服务器(戴尔Poweredge 1690)的捐赠。 以下是他的要求: Linux上的hadoop(mapreduce)(Linux和Hadoop的味道?) 猪在hadoop之上 在Windows之上的树脂 在Linux上的MPI 可能还有其他软件,比如云计算 我想创build一个使用VMware的集群,以便我可以最佳地利用硬件。 我是非常新的虚拟化。 任何人都可以build议我如何去做。 我真的很期待在这个项目上工作,因为这会给我一个很好的曝光和一些经验。 这将是许多学生同时login的实验室。 我打算使用LDAP身份validation,它将使用我们的Active Directory对学生进行身份validation。 那我该怎么办呢? 在这种情况下,哪种策略是最好的? 任何input赞赏。 谢谢。
Hortonworks表示 :“Hadoop集群的性能往往不受磁盘速度的限制 – I / O和内存限制将变得更加重要。” * 磁盘速度如何与I / O限制无关?
我使用了大量的数十个数据集,通常分成几个文件。 对这些文件执行任何types的数据范围操作(grep,sed,search,读/写数据库和Hadoop)当然是非常慢和耗时的。 到目前为止,我一直在使用我可以获得的任何高清 – 通常是希捷在5400转或7200转。 现在是我升级HD的时候了。 我所描述的工作types应该考虑哪些参数? 主轴转速? 接口? 寻找时间和吞吐量? 我读过各种各样的东西,其中一些不重要,所以我很困惑。 如果这还不够,我可以提供更多信息。
我在我的Hadoop集群中使用Linux 2.6.32-33-server#70-Ubuntu 10.04.3作为数据节点和名称节点,但是我的一个数据节点自上午就closures了。 当我重新启动特定的系统时,它显示错误"Kernel panic – not syncing – Attempted to kill init!" 我不知道如何解决它! 这是这个系统的RAM的问题!
问题: 我负责一个包含44个节点的Hadoop集群。 我们有1.5TB的WD绿色驱动器(不知道)负载循环计数的问题。 这些磁盘工作正常,但随着他们变老,他们显示越来越多的坏块。 重写这些坏块有一段时间,但他们重新出现在不同的地方。 由于大多数这些磁盘只用于Hadoop datanodes,我们没有预算来取代他们所有我正在寻找一个战略 不要疯狂维护集群,几乎每天都会出现磁盘错误和相关的文件系统问题。 我目前的习惯是: 停止Hadoop服务,卸载磁盘,使用dmesg输出和smartctl定位坏块,并用hdparm –write-sector重写这些坏块。 在磁盘上运行fsck -f -y并重新挂载它。 保持系统稳定。 Hadoop处理磁盘错误(减less3倍),但我宁愿不想冒损坏的文件系统的风险。 我做了什么? 目前我已经改变了mount选项: erros=continue,noatime但是由于日志错误erros=continue,noatime我得到了occosial的只读remount。 然后我试着禁用日志: tune2fs -O ^has_journal这避免只读tune2fs -O ^has_journal但似乎破坏文件系统(这是有道理的,没有日记) 现在我正在考虑切换到 tune2fs -o journal_data_writeback并使用data=writeback,nobh,barrier=0 但是我不确定这是否重新引入了只读重新安装。 所以,我想避免只读重新安装,希望维护稳定的文件系统元数据,但不关心数据中的错误(Hadoop负责这一点)。 速度也不应该受到影响。 我有什么select? 我知道,这可能是任何系统pipe理员的噩梦故事。 操作系统分区挂载完整日记,我不会去testing生产数据。 这是严格的Hadoop数据节点/任务跟踪器硬盘。
我有一个hadoop集群~7台机器,有些机器继续下去。 有时,hadoop datanode / jobtracker进程只会死亡(机器仍在运行),有时候,整个机器停机。 我没有真正debugging过这样的情况,所以我想知道我应该从哪里开始 – 就像我应该看看的日志。 /logs/目录下的日志文件 – 像hadoop-dev-datanode-X.log这样的文件似乎没有任何用处。 另外,如果Linux机器出现故障,应该在哪里寻找错误信息?
我需要破解单个节点hadoop“集群”(cloudera psuedo-distributed)才能够远程访问它。 我已经成功安装了hadoop,并且已经将configuration中的本地主机标识符更新为本机的IP地址。 我可以运行hadoop fs -ls /而且一切都很好。 我创build了一个密码短语,我可以ssh到Hadoop机器。 连接build立与: ssh -vvvv -i .ssh/hadoop_rsa -o ConnectTimeout=10 -o ServerAliveInterval=60 -o StrictHostKeyChecking=no -o UserKnownHostsFile=/dev/null-N -D 6666 [email protected] 当我在远程机器上运行hadoop fs -ls /时,ssh输出是: debug1: Connection to port 6666 forwarding to socks port 0 requested. debug2: fd 6 setting TCP_NODELAY debug2: fd 6 setting O_NONBLOCK debug3: fd 6 is O_NONBLOCK debug1: […]