参考这篇BBC文章:超级计算超级大国 几乎所有的超级计算机都使用Linux作为操作系统。 为什么Linux如此受欢迎?
据我所知,Infinibandnetworking的子网pipe理器计算networking上每对节点之间的最佳路由,并在这些节点想要通信时将这些路由提供给节点。 有没有办法让子网pipe理器(特别是OpenSM)以可读的方式打印这些路由表? 目前,这完全是为了我自己的好奇心,但是我可以想象这种情况对于debugging是有用的。
我想弄清楚如何build立一个简单的存储系统,通过使用SRP或iSER导出在Infiniband上的块存储。 我在这个过程中很早,现在我基本上只是在寻找一个教程,“你的架构上有两台服务器:这里是如何将块存储设备从一个存储设备导出到另一个。 “ 优选在RHEL上或其变体上。 任何指针?
我们在集群上运行14TB XFS文件服务器,并希望添加配额支持。 这是在CentOS 6.3(Final)下运行3.9.2-1.el6.elrepo.x86_64内核。 问题是当我们卸载XFS RAID时,重新挂载它,添加配额支持,挂载命令挂起。 Sever IS响应并且XFS挂载点不可访问。 恢复/ etc / fstab中的更改以删除配额选项不会挂载挂起。 我怀疑重新挂载时,XFS正在对14TB RAID进行配额检查。 我的问题是: 我如何禁用初始配额检查,以便它可以正确安装,并在后台运行配额检查? /etc/fstab条目: /dev/sdb /w1 xfs defaults,noatime,usrquota,grpquota 1 2 /var/log/messages输出: Jun 6 11:37:43 nas-2-1 kernel: XFS (sdb): Mounting Filesystem Jun 6 11:37:43 nas-2-1 kernel: XFS (sdb): Ending clean mount Jun 6 11:37:43 nas-2-1 kernel: XFS (sdb): Quotacheck needed: Please wait. 我不介意高CPU使用率或性能下降,而挂载点是积极的,但让它不可用不是我们要坚持的选项。 […]
我正在运行WRF天气模型。 这是一个密集的,高度并行的应用程序。 我需要为此构build一个HPC群集。 我使用10GB infiniband互连。 WRF并不取决于核心数量,而是取决于内存带宽。 这就是为什么一个核心的i7 3820或3930Kperformance比高级的Xeons E5-2600或E7更好 似乎大学使用Xeon E5-2670 WRF。 它花费大约1500美元。 Spec2006 fp_rates WRF台式显示器580美元i7 3930K与1600MHz RAM执行相同的操作。 有趣的是,i7可以处理高达2400MHz的ram,为WRF做了很大的提升。 那真是胜过了至强。 功耗稍高,但每年还不到20欧元。 即使包括我需要的额外部件(PSU,infiniband,case),i7的方式仍然比至强便宜700欧元/ cpu。 那么,在HPC群集中使用“玩家”硬件是否可行呢? 或者我应该用xeon来做呢? (这不是一个关键的应用程序,我可以处理停机时间,我想我不需要ECC?)
我们有一个由几千个用户组成的环境,在大约40个集群上运行应用程序,大小从20个计算节点到98,000个计算节点。 这些系统上的用户生成大量的文件(有时> 1PB),由传统的Unix权限控制(由于文件系统的特殊性,ACL通常不可用或不实用)。 我们目前有一个名为“give”的程序,它是一个suid-root程序,允许用户在组权限不足时将文件“授予”给另一个用户。 所以,用户可以input如下所示的文件给另一个用户: > give username-to-give-to filename-to-give … 然后,接收用户可以使用一个名为“take”(命令程序的一部分)的命令来接收文件: > take filename-to-receive 然后文件的权限被有效地传送给接收用户。 这个程序已经存在好几年了,我们希望从安全和function的angular度来重新审视。 我们目前的行动计划是消除我们当前实施“give”的恶性循环,并将其打包为开源应用程序,然后再重新部署到生产环境中。 当只有传统的Unix权限可用时,有没有人有另一种方法用来在用户之间传输超大文件?
免责声明:这篇文章是相当长的,因为我试图提供所有相关的configuration信息。 现状和问题: 我pipe理一个gpu集群,我想用slurm进行作业pipe理。 不幸的是,我不能要求GPU使用slurm的相应通用资源插件。 注意:test.sh是一个打印环境variablesCUDA_VISIBLE_DEVICES的小脚本。 使用–gres=gpu:1运行作业无法完成 运行srun -n1 –gres=gpu:1 test.sh导致以下错误: srun: error: Unable to allocate resources: Requested node configuration is not available 日志: gres: gpu state for job 83 gres_cnt:4 node_cnt:0 type:(null) _pick_best_nodes: job 83 never runnable _slurm_rpc_allocate_resources: Requested node configuration is not available 使用–gres=gram:500运行作业完成 如果我打电话给srun -n1 –gres=gram:500 test.sh ,则作业运行并打印 CUDA_VISIBLE_DEVICES=NoDevFiles 日志: sched: _slurm_rpc_allocate_resources JobId=76 […]