在Linux集群中运行并行作业 – mpich错误

首先,我想说这是我的第一个信息,我不确定这个地方是否合适,但是我猜想,如果在另一个堆栈交换站点更适合,请告诉我。

三个月前,我负责一个有6台电脑(Suse Linux 9.2)的集群,在预测模式下运行一个气象模型。 最近因为电源切断了其中一个节点坠毁。 在安装Lubuntu 12.04(Suse 9.2磁盘不可用,只有10.2)之后,我尝试将此计算机重新连接到群集:

  1. 安装openssh服务器
  2. 运行ssh-keygen到ssh而不需要密码
  3. 安装NFS支持
  4. 编辑/ etc / fstab
  5. 编辑/ etc / hosts

然后我试图运行met模型,但得到这个错误消息:

rm_1993:p4_error:无法gethostbyname主机thalassa; 可能是无效的名字:61
p0_12316:p4_error:在连接到thalassa3:0上的远程进程时退出subprocess

在Googlesearch之后,我发现了一些关于/etc/resolv.conf的问题,然后编辑了这个文件:

域名ceam.es
dns-nameservers 192.168.1.1
域名服务器127.0.0.1

但是错误信息仍然出现。 我假设我失去了一些东西,我不是一个专家系统pipe理员,但我必须处理。

你可以在这里find错误日志 , hosts和resolv.conf 。

任何帮助或想法将不胜感激,我会继续寻找解决scheme。

提前致谢

首先,您可能需要从/ etc / hosts中删除此行:

127.0.1.1 thalassa3

因为这样你可以为/ etc / hosts无法处理的单个主机名获得2个IP。

然后,在/ etc / hosts中拥有所有需要的信息,我宁愿删除/etc/resolv.conf以避免含糊不清。

关于/etc/resolv.conf中的dns-nameservers 192.168.1.1
正如你可以在文件开头的注释中看到的那样:

 # Dynamic resolv.conf(5) file for glibc resolver(3) generated by resolvconf(8) # DO NOT EDIT THIS FILE BY HAND -- YOUR CHANGES WILL BE OVERWRITTEN 

你不需要手动编辑这个文件。 根据新的规则,应在/ etc / network / interfaces中指定dns-nameservers ,它会自动将更改传播到/etc/resolv.conf(假设已安装resolvconf软件包)。 这是根据Ubuntu OS的服务器版本。 如果由于某种原因使用gui进行安装,则可能需要通过Network Manager进行这些更改。

您可能还想检查/ etc / hostname的内容以validation它是正确的。 如果您编辑它,您将不得不重新启动,以使更改持久。