我是一名计算机工程专业的学生,与一个Verari刀片集群项目合作,有点过时了今天的标准。 我已经获得了一些Unix的经验,但我不是一个专家。
这个Verari集群有30个工作刀片节点,20个有两个双核AMD cpus(Opteron 250),4Gb DDR ram和两个250GB的IDE硬盘。 其他10个节点刀片有两个四核Opteron cpus和8Gb ram,以及相同的IDE HDD。 这30个节点连接到以两个千兆交换机为terminal的配线架上,两个千兆交换机之间通过两根cat-6电缆连接,绑定使能。 此外,我有一个IBM工作站,为我的域主持DNS,DHCP,HTTP,LDAP,PXE / TFTP和FOG服务器。
我的任务是用这个硬件安装一个beowulf集群。 它将用于MPI程序,科学计算和地质模拟。 我最初的计划是使用CentOS 6.5和一个好的kickstart文件,以便在每个节点上使用软件RAID 1设置进行部署,使用OpenLDAP服务器,OpenMPI软件和SLURM资源pipe理器进行中央用户身份validation。
由于我还没有中央存储设备,所以我必须寻找一种方法来保持每个计算节点的用户主目录的可访问性,并且只需要最小的性能开销,并在出现问题时确保冗余(这是一个2004〜2006年的硬件更容易失败)。 我想到的是使用自动安装的NFS共享,其中每个计算节点导出一个/ home文件夹和存储在用户ldap帐户上的homeDirectorypath。 这在多达30个NFS服务器的千兆字节链路上结束,将存储节点与计算节点混合在一起,这不是一个好习惯,而是我得到的。 请记住这些是IDE HDD,所以我们在那里有很好的写作和阅读瓶颈。
我想到的其他想法是使用分布式文件系统,再次将计算节点与存储节点混合在一起。 我有红色的GlusterFS,Ceph,AFS,PVFS2,OrangeFS和Lustre。 对于我所需要的,我认为Lustre是要走的路,但是它意味着与Infiniband,Myrinet或其他高速和低延迟链路连接在计算节点上的一组NAS / SAN服务器上。 要在我的基础设施上使用Lustre,我需要有一个用于MDT和MDS的中央节点,其他29个节点作为OST /计算节点。 如果两个选项都出现故障,我可以恢复,但是我不知道Lustre如何在同时作为存储和计算单元的30多个节点上进行扩展。
任何人有更好的想法在我的项目中使用? 任何经验或类似的设置反馈?
预先感谢您的答案。
我对集群的使用一直是次要目标。
我发现如果我们谈论less于1000个并发用户,一个非常保守的方法可以实现这两个目标。
对于家庭用户而言,我会select一个简单的基于nfs的双节点主动/被动群集,在主/副drbdangular色的两个节点之间分配偶数个份额。