没有观察到SGE中的OpenMPI失败

我知道这个话题很奇怪,但我的问题也是如此。 在我们的集群中,我们将SMP与OpenMPI进行了紧密集成编译。 当我设置它时,在我的testing中工作得很好,直到最近才有人投诉。 事情是:当我使用OpenMPI PE提交作业并使用mpirun运行我的二进制文件时,它失败。

错误信息就像

fully.quallified.host.name - daemon did not report back when launched

[hostname:\d{5}] [[63730,0],\d{1,2}] routed:binomial: Connection to lifeline [[63730,0],0] lost

即使是像mpirun -np 40 --pernode hostname这样简单的东西

现在这里是怪异的部分:如果我打开详细输出plm_base它的作品: mpirun -np 40 --mca plm_base_verbose 5 --pernode hostname确实工作! 在stderr上产生的debugging输出负载不包含任何问题。

我已经尝试了多次,我总是可以重现这一点,所以我相当肯定,这不仅仅是一种侥幸。 问题是:我现在很困惑。

我当然会错过一些事情,所以这里有一些问题:

  1. 在这种情况下设置详细程度是否也默默设置其他参数?
  2. 还有什么会导致这种奇怪的行为?

最好的祝福。

编辑:configuration相关PE:

 pe_name ompi-gcc slots 2000 user_lists NONE xuser_lists NONE start_proc_args /bin/true stop_proc_args /bin/true allocation_rule $round_robin control_slaves TRUE job_is_first_task FALSE urgency_slots min 

没有什么奇特的在那里… OpenMPI编译为thight集成,并检测到它所需要的一切…然而,它不工作与qrsh即它只适用于禁用qrsh rsh …

没关系。 经过与plm的其他参数的一些试验和错误,我发现设置plm_rsh_disable_qrsh修复了这个问题。 但是,这并不能解释为什么将其基本冗长度设置为0以外的值也解决了问题。 这是我还没有得到的部分。