我试图build立一个基于CentOS的网格集群。 所有的机器将会有一些相似的结构(有些处理器比其他处理器更多),我只需要将作业推送到队列中,然后在可用的节点上运行。 每个CPU一个作业,其余的一直等待。
约翰T特别有帮助,指着我的牛屎队 ,接缝对我的假装(工作将本质上是洗澡脚本)的打击。 在接受他的回答之前,我仍然在研究这个问题,但是在Gnu Queue网站的接缝中问道这个社区有些反馈意见,表示这个项目已经死了好几年了。
我也看了一下Sun Grid Engine ,它也像这个工作的候选人一样,不幸的是Oracle现在正在扼杀这个项目, Univa还没有发布他们的端口。
我只想从右脚开始,所以我的问题是, 你有没有这种聚类(网格计算)的实际经验。 你的推荐是什么?
先谢谢你。
如果你不需要一个真正的排队系统, GNU并行可能足以同时在每个系统上启动作业。 如果你确实需要一个真正的调度程序,那么可能需要TORQUE资源pipe理器和可选的调度程序,如毛伊岛 。
放弃CentOS转向像PelicanHPC这样的Live CD也可以 。 至less在那时,configuration会更简单(至less它可以做什么)。 假设你在某所大学,那么HPC和/或集群中根本没有人? 还有没有在国家实验室或类似的设施的联系,可以提供CPU时间到您的项目?
而这个问题可能是迁移到Serverfault的候选人。
我们使用Condor进行工作排队等。