随机化Slurm节点分配

有没有人有运气随机Slurm节点分配? 我们有一个由12个节点组成的小型集群,可以在1-8个人的任何地方使用不同规模/长度的作业。 当testing我们新的Slurm设置时,如果没有其他用户同时进行交互作业和批处理作业,则作业总是转到分区中的第一个节点。 有没有办法随机化这个调度?

看起来,取决于用户的时间表,他们可以始终如一地获得相同的节点,这可以掩盖硬件/configuration中可能会看到的问题。 我们的节点总是排他性的,所以我们只考虑随机化节点级调度。

看一下slurm.conf中的权重设置

调度目的节点的优先级。 在所有条件相同的情况下,作业将被分配到满足其要求的权重最低的节点。 例如,一个异构的节点集合可能被放置在一个单独的分区中,以提高系统利用率,响应能力和能力。 分配较小的内存节点而不是较大的内存节点将是更可取的,只要能够满足工作需求。 权重的单位是任意的,但是应该将更大的权重分配给具有更多处理器,内存,磁盘空间,更高处理器速度等的节点。注意,如果使用具有最低权重的节点不能满足作业分配请求,将具有次最低权重的节点集合添加到考虑使用的节点集合(根据需要重复更高权重值)。 如果您绝对想要最小化分配给作业的更高权重节点的数量(以较高的调度开销为代价),请为每个节点指定一个不同的权重值,并将其添加到正在考虑单独调度的节点池中。 默认值是1。