我被要求升级我们的Slurm Workload Manager安装。 我在Debian 7.0 wheezy集群(1个主节点+8个节点)上安装了2.3.4。 我没有安装它,所以我有点困惑如何做到这一点,以及如何继续而不破坏任何东西。 (我不能真正备份数据,因为有太多的数据可以拷贝到其他地方。
我想升级至lessJessie(Debian 8),但是Slurm呢? 我仔细阅读了文档的升级部分( https://slurm.schedmd.com/quickstart_admin.html ),读取升级必须逐步完成,而不是从2.3.4跳到17。
斯蒂尔对我来说并不清楚如何做到这一点。 如果要求升级一个你一无所知的集群,你将如何进行? 你会检查什么? 你会select什么版本的os和slurm? 你会备份什么? 你将如何继续?
任何信息都是金子! 谢谢
我已经做了与Torque / Moab类似的升级,但不是与Slurm,但我可以提供一些build议。 如果你可以得到一个testing系统或者一个虚拟机来validation升级后的东西会起作用,那将是理想的。 否则,这是文档中提到的棘手的部分:
Slurm允许主版本号相差两个或更less(如15.08.x或16.05.x到17.02.x)的任何两个版本之间进行升级,而不会丢失作业或其他状态信息。 来自旧版本的状态信息将不会被识别,并将被丢弃,从而导致所有正在运行和挂起的作业丢失。
这意味着如果你在升级后有运行和挂起的工作,他们将不会在那里。 因此,用户需要再次提交作业,这意味着您将失去优先级和其他与作业相关的元数据和状态信息。
通过Torque / Moab,有一个工作文件夹,通常可以复制并迁移到新版本。 有什么类似的吗?
基本上,如果你不能有testing机器,那么在这种情况下,你将需要安排停机时间,并通知用户队列中的所有当前工作将会丢失,这意味着他们必须重新提交一切。 如果这不是一个选项,那么你需要find一种方法将作业迁移到升级的系统。