我已经在具有8个内核的Ubuntu 10.10服务器上安装了Sun Grid Engine(版本6.2u5)。 为了能够保留多个插槽,我有一个并行环境(PE)设置如下: pe_name serial slots 999 user_lists NONE xuser_lists NONE start_proc_args /bin/true stop_proc_args /bin/true allocation_rule $pe_slots control_slaves FALSE job_is_first_task TRUE urgency_slots min accounting_summary FALSE 这与相关服务器上的all.q相关联(让我们称之为服务器A)。 但是,当我提交一个使用4个线程的作业,例如qsub -q all.q@A -pe serial 4 mycmd.sh,它永远不会被调度,我从qstat得到以下推理: 不能运行PE“串行”,因为它只提供0个插槽 为什么SGE说“serial”只提供0个插槽,因为我指定的服务器上有8个插槽可用(服务器A)? 有问题的队列是这样configuration的(服务器名称已更改): qname all.q hostlist @allhosts seq_no 0 load_thresholds np_load_avg=1.75 suspend_thresholds NONE nsuspend 1 suspend_interval 00:05:00 priority 0 min_cpu_interval […]
在一个SGE脚本中 #$ -M [email protected] #$ -m aes SGE发送工作完成的通知。 我怎么能收到这个通知的工作输出?
我有两个队伍在SGE出于不同的目的。 他们每个人都有插槽的限制。 我想要的是只有一定数量的作业提交到队列中,即使其他队列处于空闲状态。 但是,我发现附加作业被分配到第二个队列。 我应该如何改变configuration?
我知道这个话题很奇怪,但我的问题也是如此。 在我们的集群中,我们将SMP与OpenMPI进行了紧密集成编译。 当我设置它时,在我的testing中工作得很好,直到最近才有人投诉。 事情是:当我使用OpenMPI PE提交作业并使用mpirun运行我的二进制文件时,它失败。 错误信息就像 fully.quallified.host.name – daemon did not report back when launched [hostname:\d{5}] [[63730,0],\d{1,2}] routed:binomial: Connection to lifeline [[63730,0],0] lost 即使是像mpirun -np 40 –pernode hostname这样简单的东西 现在这里是怪异的部分:如果我打开详细输出plm_base它的作品: mpirun -np 40 –mca plm_base_verbose 5 –pernode hostname确实工作! 在stderr上产生的debugging输出负载不包含任何问题。 我已经尝试了多次,我总是可以重现这一点,所以我相当肯定,这不仅仅是一种侥幸。 问题是:我现在很困惑。 我当然会错过一些事情,所以这里有一些问题: 在这种情况下设置详细程度是否也默默设置其他参数? 还有什么会导致这种奇怪的行为? 最好的祝福。 编辑:configuration相关PE: pe_name ompi-gcc slots 2000 user_lists NONE xuser_lists NONE start_proc_args /bin/true […]
有哪些方法可以防止用户在Rocks集群的headnode上启动长时间运行的资源密集型进程? 我试过了: 有礼貌地问 将limits.conf中的优秀级别设置为19.没有预期的效果。 进程运行在19好的水平,但机器仍然没有反应(可能是内存) 我在考虑: 将时间/内存限制放在limits.conf中 打破像/ bin / python这样的stream行程序的链接。 似乎笨重 其他想法: 禁止违规用户不是一种select 有时用户需要运行交互式会话。 这可以通过使用qrsh通过控制台启动一个来完成,所以真的不需要在头节点上运行任何东西
我即将安装我们的新群集。 我已经安装了第一个节点并将其用于黄金映像。 作为一个排队软件,我们使用SGE ( Sun Grid Engine )。 在安装了第一个节点之后,我使用qsubtesting了提交,并使用qstat读取了队列统计qstat 。 它按预期工作。 但是,克隆到另一个节点后,SGE不起作用。 我无法启动守护进程。 如果我经过较长时间后最终尝试qstat -f ,我会看到消息: "error: unable to send message to qmaster using port 535 on host "myHOST": got send timeout*" 我不确定它来自哪里,因为/etc/services和防火墙设置在两台主机上都是一样的。 另一件事是新节点的假脱机目录没有创build(可以理解)。 有人可以告诉我如何安装SGE使用systemimager没有不必要的痛苦。 我不想通过所有计算节点来启动./install_execd
我有五个计算节点和五个应用程序我的问题是,如果我提交作业1应用程序,然后作业将进行计算0-0,如果计算0-0是没有插槽和其他节点是空闲的,那么作业将运行在其他计算节点是否有可能打开网格引擎。 我感谢您的帮助
我需要通过Sun Grid Engine为维护环境(或部分环境)计划停机时间。 是否有可能以某种方式使用回填信息告诉网格引擎只能计划集群上能够完成的任务(我有回填信息),直到我们说第二天上午10点? 那么我可以在上午10点依靠这样一个事实,即所有的计算节点都是干净的,工作只是排队,没有工作计划,所以我可以开始维护? 感谢您的时间。 mousee
我不知道在SGE qsub命令中可以连接多个不同主机的请求吗? 例如,我试过这个: qsub -lh="compute-0-[0-9]" -pe smp 6 -lh="compute-0-2[0-9]" -pe smp 4 但是,SGE会忽略第一个和第一个参数。 有没有办法把OR放在中间,比如-o在find命令中? 谢谢。
试图让qsub在我的集群上工作(现在单个节点,但更多的是)到目前为止,试图用qsub提交返回 error: commlib error: got select error (Connection refused) Unable to run job: unable to send message to qmaster using port 536 on host "nes.local": got send error. Exiting. 我在gridengine.org上关注了一些post,提示: /etc/init.d/sgemaster.nes start /etc/init.d/sgeexecd.nes start 自从现在qsub说这似乎已经取得了进展: Your job 4 ("some_job.qsub") has been submitted 但它永远保持悬而未决。 qhost -f返回: HOSTNAME ARCH NCPU LOAD MEMTOT MEMUSE SWAPTO SWAPUS ——————————————————————————- global […]