我知道这个话题很奇怪,但我的问题也是如此。 在我们的集群中,我们将SMP与OpenMPI进行了紧密集成编译。 当我设置它时,在我的testing中工作得很好,直到最近才有人投诉。 事情是:当我使用OpenMPI PE提交作业并使用mpirun运行我的二进制文件时,它失败。
错误信息就像
fully.quallified.host.name - daemon did not report back when launched
[hostname:\d{5}] [[63730,0],\d{1,2}] routed:binomial: Connection to lifeline [[63730,0],0] lost
即使是像mpirun -np 40 --pernode hostname
这样简单的东西
现在这里是怪异的部分:如果我打开详细输出plm_base它的作品: mpirun -np 40 --mca plm_base_verbose 5 --pernode hostname
确实工作! 在stderr上产生的debugging输出负载不包含任何问题。
我已经尝试了多次,我总是可以重现这一点,所以我相当肯定,这不仅仅是一种侥幸。 问题是:我现在很困惑。
我当然会错过一些事情,所以这里有一些问题:
最好的祝福。
编辑:configuration相关PE:
pe_name ompi-gcc slots 2000 user_lists NONE xuser_lists NONE start_proc_args /bin/true stop_proc_args /bin/true allocation_rule $round_robin control_slaves TRUE job_is_first_task FALSE urgency_slots min
没有什么奇特的在那里… OpenMPI编译为thight集成,并检测到它所需要的一切…然而,它不工作与qrsh即它只适用于禁用qrsh rsh …
没关系。 经过与plm
的其他参数的一些试验和错误,我发现设置plm_rsh_disable_qrsh
修复了这个问题。 但是,这并不能解释为什么将其基本冗长度设置为0以外的值也解决了问题。 这是我还没有得到的部分。