我正在一台专用机器上运行一个简单的铁轨堆栈。 我们达到了我们的全部容量,并且完全没有缩放的设置,只有一台机器上只有一个应用程序。 我做了一些研究,并提出了一个可扩展性的潜在堆栈。 我不是专业pipe理员,但是我已经就如何处理EC2做了一些想法。 我仍然对文件系统共享有些不确定,这是我的主要问题。 首先,这是我正在处理的。 当前堆栈: 铁轨2.3.11 PostgreSQL的 乘客+ nginx的 delayed_job的 sphinx + thinking_sphinx imagemagick(沉重的image processing) 雅克(将解释) 我们的应用程序的function 我们的应用程序使用ImageMagick进行大量的图像上传和繁重的image processing。 它还与jaxer讨论冗长的canvas-to-image转换。 所有这一切都在延迟工作。 我们希望确保这个东西可以特别扩展。 所以我们正在谈论快速增长的文件存储需求和后台作业中的繁重image processing。 我迄今的决定: 使用橡胶gem帮助部署/pipe理 从delayed_job移动到redis / resque,以方便工作者(客户端/服务器),多个队列和sinatra Web界面的解耦 起初有一些ec2实例的应用程序,db,web,redis,resque等angular色,但是很快将redis / resque分成了单独的实例,可能更多的是 问题: 主要的实际问题是:所有的文件会发生什么? 如果我决定将应用程序angular色分成多个实例,那么如何获得共享的文件系统访问权? 另外,听到关于我的设置的一些想法总是很棒的。
我正在阅读Amazon Dynamo和Google Big Table等分布式存储系统的云供应商解决scheme。 真的很困惑, 什么是Distrubuted文件系统,云供应商是否使用不同种类的DFS? 什么是分布式存储系统? 这些条款和function有什么区别? 如果我理解这些条款,我将创build云供应商的一般体系结构,任何好的教程或网页将不胜感激。 谢谢
我有几个file upload网站,文件从几百千字节到几千兆字节。 目前我有几个服务器上的分布式复制Gluster卷中的所有文件。 我对Gluster最大的问题是速度。 例如,我有一个大约80,000张图像的文件夹,平均每张500KB,花了我几个小时才能更换图像的所有者。 目前一切都相当不错,但是我担心有更多的文件和时间需要与他们合作。 我有什么替代方法? 我在做什么错误的Gluster? 这是我的glusterconfiguration: performance.cache-size: 1GB performance.cache-refresh-timeout: 60 performance.cache-max-file-size: 100KB cluster.choose-local: true performance.readdir-ahead: on performance.io-thread-count: 16 client.event-threads: 3 server.event-threads: 3
在我的组织中,我们有一个处理和存储系统,分布在二十几台Linux机器上,可处理超过1 PB的数据。 现在的系统是非常特殊的; 处理自动化和数据pipe理由一系列独立机器上的大型Perl程序处理。 我正在研究分布式处理和存储系统,以便于维护,通过复制平均分配负载和数据,并在磁盘空间和计算能力上增长。 系统需要能够处理数百万个文件,大小在50兆字节到50千兆字节之间。 一旦创build,文件将不会被追加,只有在需要时才被完全replace。 这些文件需要通过HTTP访问,以供客户下载。 现在,perl脚本(我完全控制了)调用了一系列其他程序(我没有控制权,因为它们是封闭的源代码),从本质上将一个数据集转换成另一个数据集。 没有数据挖掘发生在这里。 这里是我正在寻找的一个快速列表: 可靠性:这些数据必须能够在99%的时间内通过HTTP访问,所以我需要在集群中进行数据复制。 可伸缩性:我希望能够轻松添加更多处理能力和存储,并重新平衡整个群集中的数据。 分布式处理:简单和自动的作业调度和负载平衡,适合我上面简要描述的处理工作stream程。 数据位置感知:不是严格要求,而是可取的。 由于数据和处理将在同一组节点上,所以我希望作业调度程序在或靠近实际数据的节点上调度作业以减lessnetworkingstream量。 这是我迄今为止所看到的: 存储pipe理: GlusterFS:看起来非常好,易于使用,但似乎没有办法找出文件实际驻留的节点,以提供给作业调度器。 GPFS:看起来像集群文件系统的黄金标准。 满足我的大部分要求,除了glusterfs,数据位置感知。 Ceph:现在似乎还不成熟。 分布式处理: Sun Grid Engine:我有很多这方面的经验,使用比较简单(一旦configuration正确)。 但是甲骨文已经把握住了它的冰冷之处,而且看起来不再是那么理想。 都: Hadoop / HDFS:乍一看,hadoop看起来非常适合我的情况。 分布式存储和作业调度,这是我发现的唯一一件能够提供我想要的数据位置感知function的工具。 但是我不喜欢这个名字是一个单一的失败点。 另外,我不确定MapReduce范例是否适合我拥有的处理工作streamtypes。 您似乎需要专门为MapReduce编写所有软件,而不是将Hadoop用作通用作业调度程序。 OpenStack:我已经做了一些阅读,但是我很难判断它是否适合我的问题。 有没有人有意见或build议的技术,以适应我的问题呢? 任何build议或意见将不胜感激。 谢谢!
我厌倦了担心家里的数据丢失。 我的妻子是半职业摄影师,基本上我们所有的家庭记忆都是数字化的(我们应该转换那些没有的)。 我正在计划设置两个系统来托pipe磁盘,并通过两个系统中的磁盘上的iSCSI运行某种群集文件系统(然后再运行外部驱动器,每周轮换一次)。 我运行Linux,需要支持Apple OS X和一些Windows(可以忽略Windows,因为它可以用于VMware自己的LUN实验,也可以用于SMB)。 所以,如果有一个Mac本地客户端,这将是很好的,但我可以与NFS一起生活。 这个环境还会有一台Mac笔记本电脑,一台Linux笔记本电脑和一个大型桌面,它们将被附加到主文件系统上,但它们只会是用户,他们不会贡献存储空间。 硬件方面,我相当开放,低功耗将是好的,因为这些可能会全天候(除非我设置我的Linksys路由器发送唤醒局域网包当有人找他们?),寻找可能双核Atom与nVidia芯片组,所以我可以有4GB的内存,2-4个SATA端口和双千兆以太网。 我计划购买5个磁盘开始(得到数字1将死亡,所以得到的备件,这将首先进行testing),这是一个好端口(和驱动器插槽的情况下)或两个免费。 我将有一个桌面和两个相当健壮的笔记本电脑来玩虚拟机和其他密集的工作,所以我不认为桌面CPU是有道理的(虽然诱人)。 能够从CF卡启动会很好。 而不是处理专有的驱动程序,但由于这些将是无头(可能),这不会是一个问题。 我遇到了ATI驱动程序问题,导致用户切换和powersave / suspend问题(你想让Planet Penguin Racer飞行,还是不用注销让你的妻子或孩子们使用电脑?)。 我想重复使用我已经有的电源和电源,但是他们是ATX(旧的,但不是那么老),会有小MB的问题(我担心的情况下,我预计MB会采取标准的24针ATX插头)? 硬件我正在考虑: ZOTAC IONITX-FE凌动N330 1.6GHz双核迷你ITX英特尔主板 – 拥有16x pci express ZOTAC IONITX-AU凌动N330 1.6GHz双核迷你ITX英特尔主板 – 附带powersupply 华硕AT3N7A-I英特尔凌动330 / Nvidia ION /迷你ITX主板 – 具有PCI插槽 全部只有一个千兆以太网端口。 我宁愿有自己的PS的那个,Zotac至less有WiFi(给一些冗余,性能可怕)。 总结:FS可能工作:Gluster似乎很好(任何人都亲自使用它?来来去去的笔记本电脑怎么样?),pNFS也可以工作,其他任何事情,只要它工作,一切就绪? (对于类似的问题,太多的人张贴链接到准备好的产品,或者没有任何容错的东西。) 否:Lustre真的想要一个大的安装。 xtreemfs – 没有冗余,pvfs – 我只是不喜欢现有的fs,GFS2和OCFS2上的东西 – 这是人们在这里所说的一种痛苦。 酷,但不存在 – POHMELFS,CEPH,CRFS,
我可以访问一些Mac桌面,其中的硬盘未被充分利用。 我想build立一个分布式的文件系统,把它们组合成一个大的虚拟卷。 服务器必须能够以普通用户身份运行。 我试过PVFS2,但它是为Linuxdevise的,在OSX上运行不好(挂起客户端)。 我应该用什么来代替?
我有一个相当简单的(不是真正的)要求,但我已经看了几个解决scheme,找不到一个好的解决scheme。 我在我的办公室和办公室有一个Red Hat EL 6服务器环境,还有一些linux和windows xp和win7工作站在我的办公室。 共址和办公室没有高带宽的链接。 假设它是5Mbps。 我有一些文件的集合,这些文件是由我的协同工作的批处理作业处理的,但是工作站用户可以查看和编辑这些文件,即文件需要在两个位置以读写方式访问。 另外,一些单独的文件是巨大的 – 如果需要的话,等待文件从“其他”位置传送的话,那么文件就太大了。 因此,每个文件的副本应该立即“同步”到其他位置,如果创build/更改。 我已经看了AFS,这几乎是完美的,除了分布式的“replica”总是只读的,并且重新同步只读副本发生在pipe理命令AFAICT之后。 我还希望每个客户端(例如工作站)不必拥有一个大的caching,而是在每个站点提供一个服务器,以提供对共享FS的本地(子网)访问(也许重新分享内容本地NFS或桑巴…) 有没有这样的FS可用于Linux REL 6?
我需要以4种尺寸存储25M照片=总共100M个文件,文件大小在每个文件3Kb到200kb之间变化,开始使用的存储大约14-15TB。 我们的目标是让2-4服务器上的数据可用,并使用本地快速Web服务器(nginx或lighthttpd)提供服务,我们需要服务器尽可能多的请求/秒。 我的计划是使用12x2TB(WD RE4)的英特尔2U Servercase,Raid 6(或带冗余的FS)或者操作系统的2x60GB SSD,这是一个好办法吗? 现在:我发现Adaptec 5805ZQ谁可以使用SSD SLC驱动器caching最常用的文件,有什么build议吗? 什么读取caching大小,我需要select? 如果我计划拥有2-4个这样的服务器,那么什么是最好的冗余和负载平衡方式呢? 集群和分布式FS之间关于我们目标的什么pro / con?
我兼职为一所小型私立学校工作。 24节点计算机实验室一直存在硬件故障(主要是驱动器和散热风扇),所以我把它变成了基于Linux的瘦客户机networking。 虽然工作站现在从networking启动,但大多数仍然有工作的硬盘驱动器。 他们也只使用其计算能力的一小部分来运行一台x服务器。 我正在寻找方法,但这些计算资源很好用。 每个工作站都有一个40GB硬盘,一个奔腾4处理器和256M RAM。 我考虑过: 在每个工作站上安装容错分布式文件系统。 这将利用每个工作站的硬盘空间和计算资源,而持续的硬件故障将影响最小。 卸下硬盘并将其放入几个文件服务器中。 在工作站上运行分布式计算客户端以利用空闲的CPU周期。 好的,虽然我一定会find一个更多的文件服务器的地方,但我承认,我没有任何应用程序在考虑分布式处理环境。 如果你认为第一个想法是有价值的,那么我会对你可以在各种分布式文件系统上提供的信息感兴趣。 我做了一些search,但找不到真正适合这种情况的人。 我正在寻找冗余和容错function,但它也需要支持用户和组级访问限制。 任何其他build议,也将不胜感激。
我很好奇,如果我可以使用DFS根作为共享文件夹而不使用任何DFS链接。 一些背景:我喜欢使用DFS进行名称抽象。 通过使用基于域的命名空间,我可以将服务器名称引用抽象出来,并具有将共享文件夹重定位到不同机器的灵活性。 然而,由于我的networking很小(大约10台机器只有一个AD服务器),DFS有点矫枉过正,因为它通常引入了太多的间接级别:包含指向实际SMB共享的文件夹链接的DFS根目录。 尽pipeSMB共享分布在不同的机器上是有意义的,但是当一切都在一台机器上时,似乎并不是这样。 您最终将DFS根目录和SMB文件夹在同一台计算机上一对一映射。 不过,它看起来像DFS根目录只是正常的文件夹。 不用把DFS链接放在那里,我可以把文件和文件放在里面。 因此,我不知道是否有可能使用DFS根作为共享文件夹,而不创buildDFS链接? 这种方法有什么缺点? 或者你也可以指出我可能会误解的任何一点。