服务器 Gind.cn

服务器问题集锦,包括 Linux(Ubuntu, Centos,Debian等)和Windows Server服务器

我们应该如何在一个小的生物信息集群中提供文件?

我们有一个六个ubuntu服务器的小群集。 我们对这些集群进行生物信息学分析。 每个分析需要大约24小时完成,每个核心i7服务器可以一次处理2个,作为input约5GB数据并输出约10-25GB的数据。 我们每周运行几十次。 该软件是用C / C ++编写的自定义perl脚本和第三方序列比对软件的大杂烩。 目前,文件由两个计算节点提供(是的,我们使用计算节点作为文件服务器) – 每个节点有5个单独安装的1TB SATA驱动器(无RAID),并通过glusterfs 2.0.1进行池化。 他们每个都有3个绑定的以太网pci千兆以太网卡,连接到一个d-link DGS-1224T交换机($ 300 24端口消费级别)。 我们目前没有使用巨型帧(不确定为什么,实际上)。 两个文件服务计算节点然后通过glusterfs进行镜像。 其他四个节点都通过glusterfs挂载文件。 这些文件都是很大的(4GB +),如果是这样的话,它们将被作为裸文件(无数据库/等)存储。 你可以想象,这是一个有机的增长没有深思熟虑的混乱,我们现在想要改善它,我们现在空间不足。 我们的分析是I / O密集型的,这是一个瓶颈 – 两台文件服务器之间的速度只有140mB / s,而客户端(只有单个网卡)的速度可能只有50mb / sec。 我们有一个灵活的预算,我可能会涨到5万美元左右。 我们应该如何花费我们的预算? 我们至less需要10TB的存储空间来为所有节点提供服务。 这样的文件服务器的CPU /内存有多快/多大? 我们是否应该使用NFS,以太网ATA,iSCSI,Glusterfs或其他? 我们是否应该购买两台或更多台服务器,并创build某种存储集群,还是只有一台服务器能够支持这么less的节点? 我们是否应该投资更快的网卡(比如,带有多个连接器的PCI-Express卡)? 开关? 我们是否应该使用RAID,如果是硬件或软件? 和哪个raid(5,6,10等)? 任何想法赞赏。 我们是生物学家,而不是IT专家。