Articles of gridengine

如何为CUDA设备设置SGE?

目前,我正面临着将GPU服务器集成到现有的SGE环境中的问题。 使用谷歌,我发现了一些集群的例子,但是没有提供这方面的信息。 在这里有什么forms的howto或教程? 它不必是超详细的,但它应该包含足够的信息,以获得“cuda队列”启动和运行… 提前致谢… 编辑:为了build立一个负载传感器,了解节点中有多less个GPU是免费的,我做了以下工作: 将GPU的计算模式设置为独占 将GPU设置为持久模式 将以下脚本添加到群集configuration中作为负载传感器(并将其设置为1秒) #!/ bin / sh的 hostname =`uname -n` 而[1]; 做 读取input 结果= $? 如果[$ result!= 0]; 然后 出口1 科幻 如果[“$ input”==“quit”]; 然后 退出0 科幻 smitool =`哪个nvidia-smi` 结果= $? 如果[$ result!= 0]; 然后 gpusav = 0 的GPU = 0 其他 gpustotal =`nvidia-smi -L | wc -l` gpusused =`nvidia-smi […]

Sun Grid Engine上的重叠队列?

我们希望有一个基于SGE的计算集群,其队列可以访问计算人员的所有节点,第二个集群队列可以访问其他人员偶尔使用的一半节点。 我们希望限制第二个队列的资源,以便计算人员可以继续做一些工作,即使偶尔(非常重)使用non-comp也是如此。 员工。 有没有办法build立一个节点集合中的两个(或更多)SGE队列,这样一个队列可以包含所有节点,第二个队列包含相同节点的一个子集,并且两个队列同时操作? 我将研究哪些具体的SGEconfiguration参数来设置类似的东西?

跟踪SGE上工作的内存使用情况

我正在寻找一些关于如何精确计算我的作业正在我的集群上使用多less内存的指导。 我的工作不是multithreading的,只能运行在一个CPU上。 当我运行我的工作,并运行“顶部”,我可以看到,它使用这么多的RAM … VIRT: 45.6g RES: 38g SHR: 9600 哪些(纠正我在哪里我错了)对我来说意味着我正在使用38 Gig的真正的RAM和7.6 Gig的东西,可能已被移动交换。 大约40 Gigs的数字是我testing的工具的作者说我的工作应该使用。 当我从SGE(使用qstat或qacct)获取这些数字时,就会出现混乱。 qacct -j 7270916在这里我看到 mem 2768.453 maxvmem 4.078G 然而,这些都不是接近我正在使用的45.6G内存(尽pipemaxvmem听起来像是真的应该代表45.6的演出)。 当作业正在运行时,我尝试使用这个命令qstat -j 7270916在其中我看到了一行: usage 1: cpu=00:01:37, mem=168.12988 GBs, io=38.64676, vmem=1.665G, maxvmem=4.078G 我猜这个mem是在运行过程中使用/释放/使用/释放的所有内存的总和(但刚刚完成),但是maxvmem仍然非常低(远远低于我预期的45.6次演出)。 所以我使用qcct和qstat都会产生与预期数字不一致的数字(我在上面看到)。 有没有人有build议如何获得内存使用率数字,在运行结束后使用SGE命令是有意义的? 编辑:我正在使用SGE 6.2u5

如何在Sun Grid Engine上保留完整的节点?

你如何使用SGE来保留集群上的完整节点? 我不需要一台机器的2个处理器,另一台机器的3个处理器,等等。 我有一个四核群集,我想保留4个完整的机器,每个有4个插槽。 我不能只指定我想要16个插槽,因为它不能保证每台机器上都有4个插槽。 将分配规则更改为FILL_UP是不够的,因为如果没有完全空闲的机器,SGE将尽可能简单地“填满”最less装载的机器,而不是等待4个空闲机器, 然后调度任务。 有什么办法可以做到这一点? 有没有更好的地方来问这个问题?

杀死SGE工作“已经删除”,作为用户

有没有一种方式,我的用户可以杀死他们自己的dr状态卡住的工作? qstat -f <jobid> 作为用户返回 job <jobid> is already in deletion 但以root身份运行时,它会被删除

如何设置SGE上每个用户的最大运行作业数?

我们正在使用SGE(Sun Grid Manager)。 我们对所有用户的并发作业总数有一些限制。 我想知道是否有可能为特定用户的并发运行作业数设置一个临时的自愿限制。 例如,用户dave即将提交500个工作,但是他不想同时运行超过100个工作,例如,因为他知道工作做了大量的I / O,这些I / O卡住了文件系统(不幸的是,真实的故事)。 那可能吗?

挂钟时间,用户时间和CPU时间有什么区别?

我们正在用GridEngine运行计算作业。 每个工作返回3次不同的时间: 挂钟时间 用户时间 CPU时间 这三者之间有什么区别? 这三个中哪一个最适合比较两个应用程序/脚本的性能

多台服务器像所有硬件一样运行?

现在我有10台服务器,面向电力计算。 我的用户需要使用qmake启动多个进程。 用户习惯于使用Ubuntu 9.10,而软件库中的软件是可以切换的。 我已经将ubuntu 9.10部署到所有10台服务器(pxe岩石)。 到目前为止,我们使用parallel-ssh和cluster-ssh,它允许为所有服务器启动相同的进程。 使用这个工具这个工具,服务器保持独立,但使用相同的软件和相同的启动命令。 现在我们想进入下一步,将所有的服务器看作是一个单一的服务器,其他服务器的所有资源就像资源一样。 处理的时间差别很大,也是devise启动命令的时间。 任何意见,至极软件使用将是非常有用的? 谢谢

Sun Grid Engine huhohshdhjha

当我inputqstat -h ,我得到以下选项 [-s {p|r|s|z|hu|ho|hs|hd|hj|ha|h|a}] show pending, running, suspended, zombie jobs, jobs with a user/operator/system/array-dependency hold, jobs with a start time in future or any combination only. h is an abbreviation for huhohshdhjha a is an abbreviation for prsh 什么在世界上是huhohshdhjha ?