如何升级Slurm？

我被要求升级我们的Slurm Workload Manager安装。我在Debian 7.0 wheezy集群（1个主节点+8个节点）上安装了2.3.4。我没有安装它，所以我有点困惑如何做到这一点，以及如何继续而不破坏任何东西。（我不能真正备份数据，因为有太多的数据可以拷贝到其他地方。

我想升级至lessJessie（Debian 8），但是Slurm呢？我仔细阅读了文档的升级部分（ https://slurm.schedmd.com/quickstart_admin.html ），读取升级必须逐步完成，而不是从2.3.4跳到17。

斯蒂尔对我来说并不清楚如何做到这一点。如果要求升级一个你一无所知的集群，你将如何进行？你会检查什么？你会select什么版本的os和slurm？你会备份什么？你将如何继续？

任何信息都是金子！谢谢

我已经做了与Torque / Moab类似的升级，但不是与Slurm，但我可以提供一些build议。如果你可以得到一个testing系统或者一个虚拟机来validation升级后的东西会起作用，那将是理想的。否则，这是文档中提到的棘手的部分：

Slurm允许主版本号相差两个或更less（如15.08.x或16.05.x到17.02.x）的任何两个版本之间进行升级，而不会丢失作业或其他状态信息。来自旧版本的状态信息将不会被识别，并将被丢弃，从而导致所有正在运行和挂起的作业丢失。

这意味着如果你在升级后有运行和挂起的工作，他们将不会在那里。因此，用户需要再次提交作业，这意味着您将失去优先级和其他与作业相关的元数据和状态信息。

通过Torque / Moab，有一个工作文件夹，通常可以复制并迁移到新版本。有什么类似的吗？

基本上，如果你不能有testing机器，那么在这种情况下，你将需要安排停机时间，并通知用户队列中的所有当前工作将会丢失，这意味着他们必须重新提交一切。如果这不是一个选项，那么你需要find一种方法将作业迁移到升级的系统。