我正在考虑使用MAAS来为计算集群部署操作系统。 所有节点都是无盘的。 只有头节点和(可能)MAAS机架控制器将有硬盘驱动器。 看来MAAS必须在使用之前完成节点debugging,但是如何在没有系统安装的情况下debugging节点? 经过一天的search没有结果,只有云彩与Juju。 有什么build议么?
运行RHEL 6.2的高性能集群HPC的头节点出现问题,必须使用电源buttonclosures和打开电源button,它会冻结,无networking,无法ping和SSH计算节点,头节点上会出现黑屏。 过去20天发生了两次。 没有备份头节点,sos报告日志文件收集… dmesg文件中的一些警告 ACPI警告:无效的Pm1aControlBlock长度:32,使用默认的16(20090903 / tbfadt-607)ACPI警告:无效的Pm2ControlBlock长度:32,使用默认值8(20090903 / tbfadt-607 … EXT4-fs(dm-5):警告:已到达检查时间,build议运行e2fsck EXT4-fs(dm-5):恢复完成EXT4-fs(dm-5):装入有序数据模式的文件系统。 EXT4-fs(dm-4):警告:已到达检查时间,build议运行e2fsck EXT4-fs(dm-4):恢复完成EXT4-fs(dm-4):装入有序数据模式的文件系统。 select:… / var / log / messages中的一些警告 Aug 8 10:55:31 headnode gnome-session [6202]:警告:无法确定会话:无法findcookie的会话 8月8 11:22:00 headnode console-kit-daemon [12245]:警告:没有发件人#012 Aug 8 11:27:31 headnode avahi-daemon [2937]:警告:没有NSS支持检测到mDNS,请考虑安装nss-mdns!
我想configuration我的HPC(CentOS 7),以便允许用户通过队列系统(SLURM)在计算节点上启动graphics应用程序,但不能在login节点上启动。 我在计算节点上工作,我只需要限制login节点的使用。 理想情况下,用户将进入使用ssh -X <user>@<server>的HPC,但是除非他们在计算节点上,否则他们不能使用X11 。 我怀疑我必须在login节点上更改几行/etc/ssh/sshd_config文件。 提前致谢
有从mpirun开始的app。 如果计算节点失败,那么所有进程都会崩溃,但是如果只有头节点失败(例如,重启),则进程将停留在计算节点上。 如何摆脱这个僵尸进程自动?
我正在设置一个HPC集群,以便在计算节点上使用Numpy / Scipy进行Python的现代安装。 我们使用的Linux版本默认安装了Python 2.4。 从那以后,我知道有一些新function和修复。 在节点上安装Python 2.6或2.7是否是个好主意? 在生产HPC环境中升级到较新的版本是否有潜在的缺点? 我希望这是这个问题的正确论坛,如果不是,请帮助我将其迁移到StackExchange系列中的正确的一个。
我们有几台服务器(HPC集群的一部分),目前我们正在看到一些对我来说没有意义的NFS行为。 node1通过NFS将其/lscratch目录导出到node2,挂载在/scratch/node1 。 node2还会导出自己的lscratch ,它相应地安装在node1上的/scratch/node2上。 不幸的是,每当我尝试在对面的节点上安装任何一个NFS导出,我得到以下错误: mount: node1:/lscratch failed, reason given by server: Permission denied 尽pipe我已经在/ etc / exports中首先包含了IP范围(10.6.0.0),然后是特定IP(10.6.7.1,10.6.7.2)。 有什么build议么? 编辑删除歧义 :我已经确保导出只包含范围或特定的IP,而不是在同一时间。
我是一名研究生,我想用我的笔记本电脑在家里build立一个Windows群集来testing我的并行代码。 问题是我正在使用Windows 7家庭高级版,而不是服务器版。 我正在使用Visual Studio 2010旗舰版,我安装了SP1的Microsoft HPC Packs,并且能够在本地主机上模拟MPI代码。 现在我想看看真正的应用程序。 我家里有3台其他的笔记本电脑,并安装了Windows 7 Starter。 他们没有安装Visual Studio,因为我只有一个来自大学的许可证。 那么有什么办法可以用这些configuration来构build一个Windows集群呢?
我知道这是一个很长的镜头,但我在这里毫无头绪。 我在oracale grid engine(sge)的高性能计算集群(HPC)上运行了几个计算机模拟。 一个作业以一定的速度运行(大约每秒80步),当我在机器上添加作业时,在一定的时间,速度由两个收回。 在一台机器上(我不知道cputypes),16个cpu的门槛是11个工作。 在另一个具有相同数量和types的CPU的情况下,阈值是8。 起初我以为这是一个内存问题,但是每个工作大概需要60MB到100MB,而且每台机器上都有16GB的内存。 你们有没有遇到过这样的问题? 有什么办法来分析这个? 谢谢。
我们在具有大约200TB存储的集群中使用Lustre,12个对象存储目标(使用QDR Infiniband连接到DDN存储系统)以及大约160个四核和八核计算笔记。 这个系统的大多数用户根本没有任何问题,但我的任务是I / O密集型的。 当我运行有250-500个进程的arrays作业时,同时冲击文件系统,通常在10到20之间的进程将失败。 日志文件表明OST上的负载已超过2,Lustre客户端正在返回错误的数据或read()函数调用失败。 目前我们解决我的问题的唯一方法是运行较less的同时工作。 这是不令人满意的,因为事先不知道我的工作负载是CPU负载还是I / O负担过重。 此外,只是减less负载不是运行supercomptuer的方式:我们希望在负载下运行时运行速度更慢,不会产生不正确的答案。 我想知道如何configurationLustre,以便客户端在OST负载过高时阻塞,而不是让客户端收到不好的数据。 如何configurationLustre使客户端阻止?
我对HPC环境相当陌生。 在使用8个内核的节点上运行作业并在使用I内核的8个节点上运行相同的作业,在性能或使用的壁挂时间方面是否有区别。 PS:我正在开发一个项目,其中涉及在集群中运行一个脚本,大约需要2-3天才能完成输出。 因此,这样的疑问,以避免不相关的testing。