具有高吞吐量的分布式并行容错文件系统

我正在寻找容错并易于维护的DFS(分布式文件系统)。 我将有吨(100M +)的小文件(从1K到500K)。 文件将位于某些目录中,将构build数据的逻辑结构。

我将有100Mb / s的平均读取负载和写入负载100Mb / s。

我希望得到一些关于哪个文件系统对于给定的需求最好的input。

有什么想法吗?

Ceph是一个非常有趣的,有一些整洁的function。 一个特别酷的是,复制function(决定OSD数据传送到哪里)是非常灵活的,可以根据您的可靠性需求进行调整。

总体思路是有三种守护进程:

  • 存储对象的OSD(基本上是原始字节stream)
  • MDS,元数据服务器,提供文件系统语义
    • MDS也可以进行自适应负载平衡 – 如果一些元数据真的被大量访问,它将会扩展到更多的MDS来分担负载。
  • 监视器,维护集群状态和configuration

客户端已经在Linux内核上游一段时间了,服务器的东西完全在用户空间中运行。

就性能而言,Ceph最初的博士论文指出,在24个OSD中,瓶颈是networking交换机的吞吐量,性能与节点数成线性关系。 (请参阅ceph站点上的出版物部分)。 那是五年前的事了,从那以后,我们进行了大量的调整。

在可靠性方面,该项目由Dreamhost的创始人发起,正在基础设施中推广。

GlusterFS,Lustre等…请参阅http://en.wikipedia.org/wiki/List_of_file_systems列表。

还取决于你想要做什么。 访问它的业务中的工作站? Internet访问?……?