hpc 服务器 Gind.cn

MAAS无盘计算hpc集群

我正在考虑使用MAAS来为计算集群部署操作系统。所有节点都是无盘的。只有头节点和（可能）MAAS机架控制器将有硬盘驱动器。看来MAAS必须在使用之前完成节点debugging，但是如何在没有系统安装的情况下debugging节点？经过一天的search没有结果，只有云彩与Juju。有什么build议么？

HPC簇头节点rhel 6.2冻结

运行RHEL 6.2的高性能集群HPC的头节点出现问题，必须使用电源buttonclosures和打开电源button，它会冻结，无networking，无法ping和SSH计算节点，头节点上会出现黑屏。过去20天发生了两次。没有备份头节点，sos报告日志文件收集… dmesg文件中的一些警告 ACPI警告：无效的Pm1aControlBlock长度：32，使用默认的16（20090903 / tbfadt-607）ACPI警告：无效的Pm2ControlBlock长度：32，使用默认值8（20090903 / tbfadt-607 … EXT4-fs（dm-5）：警告：已到达检查时间，build议运行e2fsck EXT4-fs（dm-5）：恢复完成EXT4-fs（dm-5）：装入有序数据模式的文件系统。 EXT4-fs（dm-4）：警告：已到达检查时间，build议运行e2fsck EXT4-fs（dm-4）：恢复完成EXT4-fs（dm-4）：装入有序数据模式的文件系统。 select：… / var / log / messages中的一些警告 Aug 8 10:55:31 headnode gnome-session [6202]：警告：无法确定会话：无法findcookie的会话 8月8 11:22:00 headnode console-kit-daemon [12245]：警告：没有发件人＃012 Aug 8 11:27:31 headnode avahi-daemon [2937]：警告：没有NSS支持检测到mDNS，请考虑安装nss-mdns！

在login节点中禁用X11，但在计算节点中启用

我想configuration我的HPC（CentOS 7），以便允许用户通过队列系统（SLURM）在计算节点上启动graphics应用程序，但不能在login节点上启动。我在计算节点上工作，我只需要限制login节点的使用。理想情况下，用户将进入使用ssh -X <user>@<server>的HPC，但是除非他们在计算节点上，否则他们不能使用X11 。我怀疑我必须在login节点上更改几行/etc/ssh/sshd_config文件。提前致谢

如何处理mpi头节点故障？

有从mpirun开始的app。如果计算节点失败，那么所有进程都会崩溃，但是如果只有头节点失败（例如，重启），则进程将停留在计算节点上。如何摆脱这个僵尸进程自动？

用于NCPy / Scipy的HPC Python版本

我正在设置一个HPC集群，以便在计算节点上使用Numpy / Scipy进行Python的现代安装。我们使用的Linux版本默认安装了Python 2.4。从那以后，我知道有一些新function和修复。在节点上安装Python 2.6或2.7是否是个好主意？在生产HPC环境中升级到较新的版本是否有潜在的缺点？我希望这是这个问题的正确论坛，如果不是，请帮助我将其迁移到StackExchange系列中的正确的一个。

NFS拒绝挂载，即使客户端在出口中列出

我们有几台服务器（HPC集群的一部分），目前我们正在看到一些对我来说没有意义的NFS行为。 node1通过NFS将其/lscratch目录导出到node2，挂载在/scratch/node1 。 node2还会导出自己的lscratch ，它相应地安装在node1上的/scratch/node2上。不幸的是，每当我尝试在对面的节点上安装任何一个NFS导出，我得到以下错误： mount: node1:/lscratch failed, reason given by server: Permission denied 尽pipe我已经在/ etc / exports中首先包含了IP范围（10.6.0.0），然后是特定IP（10.6.7.1,10.6.7.2）。有什么build议么？编辑删除歧义：我已经确保导出只包含范围或特定的IP，而不是在同一时间。

build立Windows群集

我是一名研究生，我想用我的笔记本电脑在家里build立一个Windows群集来testing我的并行代码。问题是我正在使用Windows 7家庭高级版，而不是服务器版。我正在使用Visual Studio 2010旗舰版，我安装了SP1的Microsoft HPC Packs，并且能够在本地主机上模拟MPI代码。现在我想看看真正的应用程序。我家里有3台其他的笔记本电脑，并安装了Windows 7 Starter。他们没有安装Visual Studio，因为我只有一个来自大学的许可证。那么有什么办法可以用这些configuration来构build一个Windows集群呢？

运行多个作业时HPC群集（sge）上性能较低

我知道这是一个很长的镜头，但我在这里毫无头绪。我在oracale grid engine（sge）的高性能计算集群（HPC）上运行了几个计算机模拟。一个作业以一定的速度运行（大约每秒80步），当我在机器上添加作业时，在一定的时间，速度由两个收回。在一台机器上（我不知道cputypes），16个cpu的门槛是11个工作。在另一个具有相同数量和types的CPU的情况下，阈值是8。起初我以为这是一个内存问题，但是每个工作大概需要60MB到100MB，而且每台机器上都有16GB的内存。你们有没有遇到过这样的问题？有什么办法来分析这个？谢谢。

我们如何configurationLustre来阻止客户端的请求，而不是失败？

我们在具有大约200TB存储的集群中使用Lustre，12个对象存储目标（使用QDR Infiniband连接到DDN存储系统）以及大约160个四核和八核计算笔记。这个系统的大多数用户根本没有任何问题，但我的任务是I / O密集型的。当我运行有250-500个进程的arrays作业时，同时冲击文件系统，通常在10到20之间的进程将失败。日志文件表明OST上的负载已超过2，Lustre客户端正在返回错误的数据或read()函数调用失败。目前我们解决我的问题的唯一方法是运行较less的同时工作。这是不令人满意的，因为事先不知道我的工作负载是CPU负载还是I / O负担过重。此外，只是减less负载不是运行supercomptuer的方式：我们希望在负载下运行时运行速度更慢，不会产生不正确的答案。我想知道如何configurationLustre，以便客户端在OST负载过高时阻塞，而不是让客户端收到不好的数据。如何configurationLustre使客户端阻止？

在HPC集群中运行作业

我对HPC环境相当陌生。在使用8个内核的节点上运行作业并在使用I内核的8个节点上运行相同的作业，在性能或使用的壁挂时间方面是否有区别。 PS：我正在开发一个项目，其中涉及在集群中运行一个脚本，大约需要2-3天才能完成输出。因此，这样的疑问，以避免不相关的testing。

Intereting Posts

如何configurationdd-wrt将IP协议ID 50和51stream量转发到内部机器？ SSH公钥文件末尾的用户/主机有什么意义？ Office 2011 mac / Exchange联系人 AppEnforce.log是否确实logging了用于安装的上下文不正确？使用IOS在两个vlan上拆分组播stream量 Confluence代理错误原因：从远程服务器读取错误 ProLiant DL580 G7 E7升级问题版本2 使用Active Directory重新部署 Amazon VPC和Linux服务器之间的IPSec VPN 没有esxi的安全的vm 连接到启用了拆分隧道的VPN时，无法打印到本地打印机需要Windows XPregistry帮助这是Windows Server 2008 Web Edition的最佳DNS服务器解决scheme 在检查点从设备复制策略如何使用Webmin创build多个网站

Articles of hpc