免责声明:这篇文章是相当长的,因为我试图提供所有相关的configuration信息。 现状和问题: 我pipe理一个gpu集群,我想用slurm进行作业pipe理。 不幸的是,我不能要求GPU使用slurm的相应通用资源插件。 注意:test.sh是一个打印环境variablesCUDA_VISIBLE_DEVICES的小脚本。 使用–gres=gpu:1运行作业无法完成 运行srun -n1 –gres=gpu:1 test.sh导致以下错误: srun: error: Unable to allocate resources: Requested node configuration is not available 日志: gres: gpu state for job 83 gres_cnt:4 node_cnt:0 type:(null) _pick_best_nodes: job 83 never runnable _slurm_rpc_allocate_resources: Requested node configuration is not available 使用–gres=gram:500运行作业完成 如果我打电话给srun -n1 –gres=gram:500 test.sh ,则作业运行并打印 CUDA_VISIBLE_DEVICES=NoDevFiles 日志: sched: _slurm_rpc_allocate_resources JobId=76 […]
背景 我们发生了Windows故障转移群集中断的事件。 验尸表明该节点已被删除,如本文所述 。 我们最近才把这个集群完全迁移到VMware环境中,看起来上面描述的事件可能是导致停机的原因。 相关的VMware知识库文章谈到了增加Small Rx Buffers和Rx Ring #1设置,但警告说增加这些太多可能会大大增加主机上的内存开销。 在对150台Windows虚拟机的Network Interface\Packets Received Discarded性能计数器进行审计后,16个guest虚拟机上的22个vNIC丢弃了一些数据包。 一个足够小的数量,我不担心额外的内存使用的主机征税,但我想了解如何使用内存这些设置和内存来自。 问题 缓冲区的数量和环的大小之间的关系是什么? 如何计算用于这些设置的给定值的内存量? 由于这些设置位于客户操作系统中的NIC本身上,我假定它们是驱动程序设置。 这使我认为使用的RAM可能是分页或非分页池。 它是否正确? 如果是的话,我应该担心吗? 我在这里没有考虑到担忧吗? 我们正在尝试确定在受影响的VM上将这些设置设置为最大值是否存在缺陷,而不是VMware主机内存使用情况。 例如,如果我们增加客户内存池耗尽的风险,我们更倾向于从小做起。 这些问题中的一些(可能全部)可能不是特定于VMware或虚拟化的。
我一直在search和收集很多这样的链接,但是其中很多工具没有足够的用例或演示文档来评估它们的潜在价值,而无需安装和试用它们。 我希望这里的人有一些他们的经验,并可以提供有关他们是多么容易安装和使用的反馈。 我的个人使用案例是几个机器池,通常用于协同工作分布式任务。 这些机器不是一个真正的集群(如贝奥武夫),我的主要需求是帮助configuration和pipe理机器。 如果实用程序提供了将工作分解成几部分并分配这些部分的function,那很有意思,但我首先需要使用主要用例。 以下是我发现的免费开源项目列表: PDSH clusterssh PSSH clusterit 扇出 omnitty taktuk 碟 DSH pydsh 我渴望听到你的想法!
是否有适合与Windows Server 2008 / SQL Server一起使用的生产质量的iSCSI SAN进行故障转移群集? 到目前为止,我只看到了戴尔的MD3000i和惠普的MSA 2000(2012i),两者的价格均在6K美元左右,并且configuration了最less的磁盘。 我知道,水牛城有一个1000美元的设备,支持iSCSI,但是他们说它不能用于2008年的故障转移集群。 我对在生产环境中看到适合故障转移的东西感兴趣,但IO要求非常低。 (集群,比如一个30GB的数据库) 至于使用软件:在Windows上,StarWind似乎有一个很好的解决scheme。 但实际上比购买硬件SAN更多的钱。 (据我所知,只有企业版支持复制品,这是3000美元的许可证。) 我以为我可以使用Linux,就像DRBD +的iSCSI目标将罚款。 但是,我还没有看到任何支持SCSI-3持久保留的免费或低成本的iSCSI软件,Windows 2008需要故障转移群集。 我知道$ 6K没有多less,只是好奇,看看有没有实用的更便宜的解决scheme。 最后,是的,软件是昂贵的,但许多小企业得到MS BizSpark,所以Windows 2008企业/ SQL 2008许可证是完全免费的。
我正在部署第三方应用程序,以符合12个因素的build议 ,其中一个要点说明应将应用程序日志打印到stdout / stderr:然后集群软件可以收集它。 但是,应用程序只能写入文件或系统日志。 我如何打印这些日志呢?