我正在使用Ubuntu 10.04并尝试从Ubuntu repesitory安装Sun Grid Engine。 它在单机上工作,我可以提交工作等,但我不能让它与任何其他机器的工作。 我添加了另一个执行主机,并安装了gridengine-client gridengine-common gridengine-exec但是它不知怎么的不能和master通信。 我甚至closures了所有的防火墙,以确保它不会造成问题。
当我在主节点上尝试qstat -f ,我得到:
queuename qtype resv/used/tot. load_avg arch states --------------------------------------------------------------------------------- standard@neuron1 BIP 0/0/2 0.04 lx26-amd64 --------------------------------------------------------------------------------- standard@neuron2 BIP 0/0/2 -NA- -NA- au
当我重新启动神经元2节点上的deamon时,我得到:
error: can't find connection error: can't get configuration from qmaster -- backgrounding
当我尝试从n2(neuron2)节点运行qstat -f ,我得到:
error: commlib error: access denied (server host resolves destination host "n1" as "neuron1") error: unable to contact qmaster using port 6444 on host "n1"
我有两台机器的主机名,它看起来像第一个错误与它有关,但如果它导致这种问题将是奇怪的。 我试过telnet n1 6444 ,它连接。
有人知道这里发生了什么吗? 我错过了什么吗?
好的,问题确实是使用了两倍的主机名。 当我从中删除一个开始工作。 我会挖掘它,并试图找出为什么这样。