Articles of 分布式文件系统

分布式存储

在我的大学部门,我们即将升级我们学生实验室的电脑(约25-30台机器)。 这些机器将运行Linux。 关于新机器的一件事是他们有巨大的(1TB)硬盘(我们没有要求他们,但是现在你无法find相当便宜的硬盘!) 目前,用户主目录存储在中央文件服务器上,并通过nfs进行安装。 所以问题是,有什么办法可以使用所有这些磁盘容量? 我会想想 扩大我们的中央文件存储,或 复制主目录以加快访问速度。 主要问题是实验室机器不能保证一直运行。 浏览这个网站我读了关于GlusterFS和AFS 。 GlusterFS似乎有很多朋友,是一个很好的通用解决scheme。 怎么样AFS? 我读过它有性能问题,有没有经验?

带本地磁盘caching的分布式文件系统

我的服务器基础架构正在快速增长,我决定创build一个分布式存储集群。 我一直在寻找一个合适的文件系统来满足我的要求,但是它们都不支持本地磁盘cachingfunction。 我的每个服务器都有两个600GB SAS硬盘驱动器,我喜欢将它们用作caching存储器,以便从分布式存储中访问最常访问的文件。 任何开源文件系统是否支持这个function? 我喜欢使用Ceph或GlusterFS,但我没有发现任何有关本地磁盘caching的信息。 我认为这是分布式文件系统应该支持的基本function之一。

有没有办法在OSX或Windows工作站上连接远程文件夹和本地caching?

一个拥有50名graphicsdevise师的公司正在使用同一个文件服务器。 他们主要使用Indesign。 一个典型的项目是一个60页的独立文件,有1.5GB的链接文件(像100 PSD,JPG,.ai)。 他们不断编辑链接的文件。 这给服务器造成了很大的压力。 所有作品都有板载SSD(700MB / s),仅用于系统和应用程序。 我想知道是否有任何方法使用本地驱动器作为远程文件夹的caching。 比方说,我们分配200GB的caching文件。 每次访问文件时,都会在服务器上检查最后的更改date,并且只有当caching的数据过时时才检索文件。 如果服务器上的文件发生变化,则通知工作站。 这将被认为是一个Dropbox或谷歌驱动器,但与本地服务器。 如果有人知道这种解决scheme,请指出我的意见。 如果没有,我真的很奇怪为什么。 这是每个这样的公司都需要的。 Adobe推荐在本地复制文件,工作,然后重新上传。 当3位graphics专家在同一本书的不同章节中共享大量资产时,这是非常痛苦和不可能的。 (请注意这个问题是soved,但我让它为constust与评论:) 使用SMB它使用了大量的CPU在服务器上,我认为Indesign正在监视链接文件的变化,并不断请求更改。 如果一个链接文件更新indesign立即显示旁边的标志。 (解决scheme:当使用afp连接远程文件夹时,服务器上的CPU使用情况是正常的,但在OSX上SMB执行问题肯定存在问题。 无论如何,我仍然在寻找一种方法来安装远程文件夹…有本地caching​​。

对150台Linux机器上的映像目录进行重复数据删除和索引

我有一个150台Linux服务器的客户端,分布在各种云服务和物理数据中心。 这些基础设施大部分是被收购的项目/团队和预先存在的服务器/安装。 客户端很大程度上是关于image processing的,许多服务器都有大的SAN或本地磁盘arrays,上百万的JPEG / PNG文件。 每个盒子上都有一个configurationpipe理代理,可以看出很多磁盘都是100%的,有些非常空,而且有很多重复的数据。 客户端现在可以访问CDN。 但是现在只是列举一下可能是一项艰巨的任务。 有没有什么工具可以创build所有这些数据的有用索引? 我看到了像GlusterFS这样的工具来pipe理这些分布式文件系统和Hadoop HDFS 我想知道是否可以使用这些系统的索引工具,而无需实际实施底层的卷pipe理工具。 生成潜在的重复数据删除候选索引的起点是什么?

Ceph:为什么更多的“安置团体”是“坏事”?

我一直在研究分布式数据库和文件系统,虽然我最初对Hadoop / HBase感兴趣,因为我是一名Java程序员,但是我发现这个关于Ceph的非常有趣的文档,作为一个主要的优点, 现在已经集成在Linux内核。 Ceph作为HDFS的可扩展替代品 有一件事我不明白,我希望你们中的一个能向我解释。 这里是: 一个简单的散列函数将对象标识符(OID)映射到一个放置组,一组存储对象及其所有副本的OSD。 有数量有限的放置组可以创build存储在任何给定OSD上的对象的副本的OSD数量的上限。 数字越高,多个节点的故障将导致数据丢失的可能性越高。 例如,如果每个OSD与每个其他OSD具有副本关系,则整个群集中仅有三个节点的故障可以清除存储在所有三个副本上的数据。 你能向我解释为什么更多的安置组织增加了数据丢失的可能性? 我会认为这是相反的方式。

硬件/软件devise:2PB的存储空间

免责声明是的,我要求你为我devise一个系统:) 我的任务是devise一个系统来存储大约10TB /天,保留时间为180天。 我的第一个方法是使用GlusterFS并使用像这样的硬件设置: 系统中的单个节点: 1个带有HP Smart Array P812控制器的 HP ProLiant DL180 G6 8 惠普D2600瓦特/ 12 2 TB 6G SAS 7.2K LFF双端口MDL硬盘24 TB捆绑 106存储磁盘(2个操作系统磁盘,10个服务器数据磁盘,96个分布在8个机架上) 我需要9个节点来获得可以容纳数据的networking存储(没有复制或在本地磁盘上的RAID)。 优点: 我可以从一台没有架子的服务器开始 通过在一台服务器上添加机架(或者添加服务器,通过首先添加节点或者首先添加机架或者两者的组合来增加机架的扩展) “无限”地缩放(对于“无限”的某些定义) 缺点: 一般来说:我实际上不知道如何validation这一点,一旦达到扩展的最后阶段(1.8 PB估计),这将是一个可行的设置。 我没有任何实际的首选方向,只有GlusterFS的一些经验,我已经使用GlusterFS的4 TB系统(分布式,复制,4个节点)。 我敢肯定,这个设置运行Hadoop / Gluster / Netapp / EMC / Hitachi / EveryoneElse没有什么太大差别,但是用例是( drumroll ): ls -ltr | grep 'something' | xargs grep […]

与MooseFS的经验?

任何人有任何使用MooseFS的经验? 我想要一个简单的分布式存储平台来存储大约10TB的静态数据存档,并将其存储到20-40个节点。 另外,我希望能够在存档增长时添加存储,而无需重新构build文件系统。 我不在乎是否有点慢。 我只是希望它简单而稳定。 基本上,从我所看到的OS X之间的MooseFS和Gluster之间。 还有其他build议吗?

我们是否使用DFS“错误”?

我们是一家在全国各地设有分支机构的公司。 我们每个分支至less有1个T1,最多2个T1。 我们在每个分支机构和我们的主要办事处都有一台DFS服务器。 在过去的一周里,我们的一些用户文件中一个特别麻烦的份额从来没有积压0个文件。 我一直在调整复制时间表来尝试清除,而我pipe理的最低版本是1500个文件。 所以我的问题是: 我们在广域网上安装DFS是否是错误的? 我们的文件数量和变化量是否太less? 有没有做一些神奇的configuration?

快速分布式文件系统中的大量数据与数据库中的元数据

我的项目使用几台处理机器和一台存储机器。 当前存储与MSSQL filetable共享文件夹组织在一起。 存储中的每个文件都有一些数据库元数据。 处理机器执行他们需要来自存储器的文件及其元数据的任务。 处理机完成任务后,将结果数据存回存储器。 从那里它被另外一台加工机器拿走了,这个加工机器也生成了一些文件并将其存回。 等等。 一切都很好,但随着处理机数量的增加,我发现自己瓶颈与存储硬盘的性能。 所以我想要处理机器把文件放到分布式FS中。 从存储设备中提取负载,从中可以从中获取数据,而不仅仅是存储设备。 你能提出一个满足我需求的特定分布式FS吗? 或者还有另一种方法来解决这个问题,没有它? 在一次FS中的数据量是几个兆兆字节。 (存储可以处理这个,但处理器不能)。 数据一致性至关重要。 读写策略是:一旦写入文件 – 它的常量,可能只能被删除,但不能修改。 我目前的平台是Windows,但如果在另一个方面有一个更方便的解决scheme,我已经准备好切换它。

大多数操作系统(VM)可以容忍的合理存储故障转移时间是多less?

我有一个GlusterFS 2节点2副本设置。 我打算将其用作存储VM磁盘映像的OpenStack实例存储。 在我的testing中,如果pipe理程序当前挂载的GlusterFS节点失败(使用默认的GlusterFS设置),连接超时需要大约45秒,而glusterfs客户端故障转移到另一个节点。 在这45秒内,IO操作将挂起,从虚拟机的angular度来看,这意味着磁盘变得无法响应。 我知道对于Linux来说,如果磁盘变得没有响应,一段时间之后(我不知道多久)内核将以只读的方式重新挂载文件系统。 我也可以降低GlusterFS卷的network.ping-timeout ,这会减less故障切换时间。 我的问题是,我应该设置这个值多less,以便大多数操作系统可以容忍虚拟磁盘没有反应时间没有副作用? 更确切的说,我想知道Windows NTFS,FreeBSD UFS / ZFS和Linux ext4可以容忍的磁盘无响应时间。 涉及的参数是什么? (例如,Linux上的/sys/block/sda/device/timeout ) 相关信息: 如何降低Gluster FS的对等超时/降低对等的影响? http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=1009465 更新:@ the-wabbit已经回答了关于Linux和Windows的问题,我也想知道FreeBSD的情况