hpc 服务器 Gind.cn

为什么大多数超级计算机使用Linux？

参考这篇BBC文章：超级计算超级大国几乎所有的超级计算机都使用Linux作为操作系统。为什么Linux如此受欢迎？

查看由OpenSM生成的Infiniband路由表？

据我所知，Infinibandnetworking的子网pipe理器计算networking上每对节点之间的最佳路由，并在这些节点想要通信时将这些路由提供给节点。有没有办法让子网pipe理器（特别是OpenSM）以可读的方式打印这些路由表？目前，这完全是为了我自己的好奇心，但是我可以想象这种情况对于debugging是有用的。

设置简单的Infiniband块存储（SRP或iSER）

我想弄清楚如何build立一个简单的存储系统，通过使用SRP或iSER导出在Infiniband上的块存储。我在这个过程中很早，现在我基本上只是在寻找一个教程，“你的架构上有两台服务器：这里是如何将块存储设备从一个存储设备导出到另一个。 “ 优选在RHEL上或其变体上。任何指针？

XFS添加配额 – 跳过第一次安装/引导的配额检查

我们在集群上运行14TB XFS文件服务器，并希望添加配额支持。这是在CentOS 6.3（Final）下运行3.9.2-1.el6.elrepo.x86_64内核。问题是当我们卸载XFS RAID时，重新挂载它，添加配额支持，挂载命令挂起。 Sever IS响应并且XFS挂载点不可访问。恢复/ etc / fstab中的更改以删除配额选项不会挂载挂起。我怀疑重新挂载时，XFS正在对14TB RAID进行配额检查。我的问题是：我如何禁用初始配额检查，以便它可以正确安装，并在后台运行配额检查？ /etc/fstab条目： /dev/sdb /w1 xfs defaults,noatime,usrquota,grpquota 1 2 /var/log/messages输出： Jun 6 11:37:43 nas-2-1 kernel: XFS (sdb): Mounting Filesystem Jun 6 11:37:43 nas-2-1 kernel: XFS (sdb): Ending clean mount Jun 6 11:37:43 nas-2-1 kernel: XFS (sdb): Quotacheck needed: Please wait. 我不介意高CPU使用率或性能下降，而挂载点是积极的，但让它不可用不是我们要坚持的选项。 […]

在HPC集群中使用i7“玩家”cpu

我正在运行WRF天气模型。这是一个密集的，高度并行的应用程序。我需要为此构build一个HPC群集。我使用10GB infiniband互连。 WRF并不取决于核心数量，而是取决于内存带宽。这就是为什么一个核心的i7 3820或3930Kperformance比高级的Xeons E5-2600或E7更好似乎大学使用Xeon E5-2670 WRF。它花费大约1500美元。 Spec2006 fp_rates WRF台式显示器580美元i7 3930K与1600MHz RAM执行相同的操作。有趣的是，i7可以处理高达2400MHz的ram，为WRF做了很大的提升。那真是胜过了至强。功耗稍高，但每年还不到20欧元。即使包括我需要的额外部件（PSU，infiniband，case），i7的方式仍然比至强便宜700欧元/ cpu。那么，在HPC群集中使用“玩家”硬件是否可行呢？或者我应该用xeon来做呢？（这不是一个关键的应用程序，我可以处理停机时间，我想我不需要ECC？）

如何让用户在linux上将文件传输给其他用户

我们有一个由几千个用户组成的环境，在大约40个集群上运行应用程序，大小从20个计算节点到98,000个计算节点。这些系统上的用户生成大量的文件（有时> 1PB），由传统的Unix权限控制（由于文件系统的特殊性，ACL通常不可用或不实用）。我们目前有一个名为“give”的程序，它是一个suid-root程序，允许用户在组权限不足时将文件“授予”给另一个用户。所以，用户可以input如下所示的文件给另一个用户： > give username-to-give-to filename-to-give … 然后，接收用户可以使用一个名为“take”（命令程序的一部分）的命令来接收文件： > take filename-to-receive 然后文件的权限被有效地传送给接收用户。这个程序已经存在好几年了，我们希望从安全和function的angular度来重新审视。我们目前的行动计划是消除我们当前实施“give”的恶性循环，并将其打包为开源应用程序，然后再重新部署到生产环境中。当只有传统的Unix权限可用时，有没有人有另一种方法用来在用户之间传输超大文件？

为什么在使用内置插件运行SLURM的集群上请求GPU作为通用资源失败？

免责声明：这篇文章是相当长的，因为我试图提供所有相关的configuration信息。现状和问题：我pipe理一个gpu集群，我想用slurm进行作业pipe理。不幸的是，我不能要求GPU使用slurm的相应通用资源插件。注意：test.sh是一个打印环境variablesCUDA_VISIBLE_DEVICES的小脚本。使用–gres=gpu:1运行作业无法完成运行srun -n1 –gres=gpu:1 test.sh导致以下错误： srun: error: Unable to allocate resources: Requested node configuration is not available 日志： gres: gpu state for job 83 gres_cnt:4 node_cnt:0 type:(null) _pick_best_nodes: job 83 never runnable _slurm_rpc_allocate_resources: Requested node configuration is not available 使用–gres=gram:500运行作业完成如果我打电话给srun -n1 –gres=gram:500 test.sh ，则作业运行并打印 CUDA_VISIBLE_DEVICES=NoDevFiles 日志： sched: _slurm_rpc_allocate_resources JobId=76 […]

Intereting Posts

在Linux中每秒测量一次系统调用与普通用户的公钥ssh错误如何设置我自己的DNS服务器安装Apache Webserver的名称服务器服务器到服务器复制和CPU和32k \损坏的文档我应该打开什么端口来使用EC2作为域名服务器（我以为我知道，但显然不是！）如何在Ubuntu中设置search域（和其他resolv.conf参数）？ Redis / Sentinel群集故障转移导致“故障转移 – 中止 – 未select的主控” 虚拟磁盘服务初始化失败 – Server 2008 SP2（不是R2）与私钥，IIS，AppPool和用户证书的问题 HP MSL2024不能使用Ultrabac 9.2.2自动更换磁带压缩进程使用的文件你如何testing你的色情filter 405 – “方法不允许”添加托pipe在IIS7中的服务 Elasticsearch快照恢复与合并

Articles of hpc