Articles of hpc

/ var / log / messages中有许多pbs_server错误

在超级计算机的pipe理节点上,我们收到许多错误,例如: pbs_server: LOG_ERROR::is_request, bad attempt to connect from 10.10.0.254:1023 (address not trusted – check entry in server_priv/nodes) 在他们之后,几乎每一分钟都是这样的: last message repeated 16 times 重复次数随时间变化。 提到的地址10.10.0.254是pipe理节点的地址之一。 根据“netstat -pa | grep 1023”的端口1023与pbs_mom相关。 事实certificate,pipe理节点每分钟多次试图连接自己,不能这样做。 来自错误文字的build议并没有多大帮助,据我所知,pipe理节点不应该在“节点”文件中。 有人可以build议如何解决这个问题吗?

HPC集群(SLURM):build议build立一个安全稳定的系统的方法

我正在使用SLURM驱动的HPC集群,包含1个控制节点和34个计算节点,而且由于当前系统并不十分稳定,因此我正在寻找有关如何以某种方式构build这样一个集群的指南或最佳实践它变得更加稳定和安全。 而且要清楚的是,我并不是在寻找关于资源pipe理的详细答案,或者是其他的工具,但是对于非常基本的设置build议(见下面的“问题”)。 我目前的设置 1个控制节点 这台机器在/ usr / local / slurm上安装了slurm,并运行slurmctld守护进程。 导出完整的slurm目录(包括所有可执行文件和slurm.conf)。 34计算节点 这些机器将导出的slurm目录从控制节点挂载到/ usr / local / slurm并运行slurmd守护进程。 我不使用任何备份控制节点。 如果我们的控制节点丢失了,如果当前正在运行的作业能够存活,似乎总是一个运气问题,所以我正在寻找一种方法来创build一个更稳定的设置。 当前设置可能存在的问题 1)共享slurm目录。 我在网上找不到任何东西,如果这是一个好的或不好的做法,但由于slurmconfiguration文件必须在所有机器上相同,我想我可能会分享完整的slurm安装。 但是,当然,如果计算节点丢失,所有的文件也将变得不可用。 2)缺less备份控制节点。 这需要一个可以保存当前状态的共享NFS目录。 问题是,这个目录应该放在哪里? 当然,把它放在控制节点上是没有意义的,但是它应该在备份控制节点上吗? 或者在一个完全不同的机器上? 题 那么,是否有一些指导原则可以用来构buildHPC群集? 问题是,涉及到哪些不同types的节点,他们的工作是什么以及应该通过NFS共享什么样的数据,以及这些共享目录应该存活在哪里? 我也会很感激任何一种文学或教程,这些都指向了正确的方向。

在OpenStack上运行ScaleMP

如果有人已经在OpenStack (KVM)中运行ScaleMP Linux设备,寻找反馈? 对于matrix向量乘法的设置(w /或w / o InfiniBand,RAM总量等)和它的性能(类似于下面的图片)的简短描述将是高度赞赏的。 请注意,matrix大小必须足够大才能触发networking数据传输。 最终,我对KVM(OpenStack)开销感兴趣(所以我猜与其他云类似的经验也应该是非常有用的)。 PS也看一个很好的答案解释ScaleMP“function” https://serverfault.com/a/214185/106906 [编辑] vSMP实际上提出的是在ScaleMP上运行云。但是我不知道他们是否已经支持OpenStack或兼容的云标准? 它给人一种部分重叠function的印象。我不知道这是否只是“营销”,或者是值得关注的东西。 无论如何,现在我只对透明的RAM-over-network映射技术感到好奇。 OpenStack是否已经提供了一个替代scheme?

HPC批处理容器

我们面临的问题是很多人想在我们的高性能计算集群上运行不同的科学软件。 每个用户都需要一组不同的库和库版本,我们不希望pipe理员每次都要处理新库的安装。 所以我们考虑使用Docker容器来实现这个目的:每个用户都可以使用他需要的用户空间库来设置自己的容器,然后使用这个容器运行批处理作业。 但是,正如我所看到的那样,docker主要关注的是服务而不是批处理作业 :通常你有一个(例如web)服务,这个服务可以运行所有的时间和处理新的工作(这基本上总是与新的input数据),只要他们进来。 我们的情况是完全不同的:一个新用户应该能够设置应该在硬件上运行的新任务,并且应该为他的批处理工作获得一定数量的资源。 因此,我想知道是否已经有针对这种情况的解决scheme。 我看了一下https://github.com/NERSC/shifter ,似乎正朝着正确的方向发展,但发展已经停滞。

Windows HPC Server 2008:跨虚拟机的专用networking?

Windows HPC Server 2008提供了使用Windows部署服务自动将操作系统映像部署到新群集节点的选项。 但是,这要求使用“专用networking”networking拓扑结构来设置HP​​C群集。 从HPC群集pipe理器帮助:“networking拓扑”仅在企业networking上的所有节点“:由于所有节点仅连接到企业networking,因此无法使用Windows部署服务在Windows HPC服务器中使用新的部署工具部署计算节点映像2008年。” 当select“专用networking上隔离的计算节点”作为networking拓扑时,HPCnetworkingconfiguration向导会调出“该拓扑需要2个在线networking适配器”。 一群物理机器没有问题。 我的问题是:如果计算群集由多台主机上运行的虚拟机组成,那么如何为所有虚拟机设置一个“虚拟networking”? 而且,有没有办法在HPC作为第二块网卡的头节点上设置某种虚拟networking交换机? 顺便说一句。 这是针对testing环境的,生产集群由物理机器组成。

Rocksclusters重新安装节点分区错误

我有一个基于rocksclusters的HPC所以,当我添加新的滚动(扭矩)我发送kickstart命令到所有节点重新安装它们。 但在加载节点上的X安装程序后,所有这些都给我一个错误: 无法分配请求的分区:分区失败:无法将分区分配为主分区。 无法为/ boot分配分区

不能强制HPZ600工作站进入PXE

我有一个HPC 2008群集的HP Z600工作数据库,尽pipe我的头节点可以将它们添加到群集(使用node.xml文件),并且可以重新启动它们,但是Z600启动PXE尝试时会超时。 当群集节点启动时,头节点报告它正在'将PXE命令发送到启动节点到WINPE(预计启动时间:5-15分钟)“。 与此同时,集群节点进入PXE,但是在报告PXE-M0f之前坐在定时器的前面,最后发现非系统磁盘错误。 HP UNDI PXE-2.1 V11.4.0 HP基本代码PXE-2.1 v1.1.0 任何build议强迫这些Z600s感激地接受他们的药物。

HPC 2008时间共享单核(分数资源调度)

Windows HPC 2008似乎被限制为每个内核一个任务。 是否有时间通过​​单个核心共享多个任务(或作业)?

在会话断开连接时,在NX会话中运行的程序似乎暂停

我们目前正在运行一个交互式HPC应用程序,向用户提供一个graphics界面,连接到一个HPC群集,并允许他们运行并观察一些计算。 用户通过NoMachine NX服务器login到前端节点(本机不参与计算)。 他通常会设立自己的问题,做一些微小的试运行,然后开始一个大的工作。 之后,他断开NX会话,期待计算继续。 除了没有。 NX会话内以及整个集群内的所有执行似乎在用户断开连接时暂停。 如果他恢复一个会话,他可以恢复计算,但是这是他希望运行好几天的工作,所以期望整个连接的NX会话可能是不可行的。 我们知道,在很多方面,正确的用例是用户找出他的参数,然后通过ssh提交一个批处理(非交互式)作业,但是他强烈的倾向于上面列出的工作stream程,所以我们试图使其工作。

Open MPI无法通过SSH启动远程节点

我试图在networking上的几台机器之间build立Open MPI。 打开MPI在本地工作正常,但我不能让它在远程节点上工作。 我可以ssh进入远程机器(没有密码)就好了,但如果我尝试类似的东西 mpiexec -n 4 –host remote.host hello_c 那么SSH连接只是超时。 我查了几个教程,但他们给出的唯一的configuration说明是“确保你可以SSH密码进入远程机器”。 我做了,我仍然无法在远程机器上启动节点。 有什么问题?