Microsoft MPI无法连接(RPC服务器不可用。)

我有两台安装了MS MPI 7.1的机器,一台叫做SERVER,一台叫做COMPUTE。 这些机器是在一个简单的Windows工作组(无DA)LAN上设置的,并且都有一个具有相同名称和密码的帐户。

两者都运行MSMPILaunchSvc服务。 这两台机器都可以在本地执行MPI作业,并通过使用hostname命令进行testing进行validation

 SERVER> mpiexec -hosts 1 SERVER 1 hostname SERVER or COMPUTE> mpiexec -hosts 1 COMPUTE 1 hostname COMPUTE 

在机器本身的terminal上。

我已经禁用了两台机器上的防火墙,以使事情更轻松。

我的问题是我无法让MPI从远程主机上的SERVER运行作业:

1:服务器与MSMPILaunchSvc – >计算与MSMPILaunchSvc

 SERVER> mpiexec -hosts 1 COMPUTE 1 hostname -pwd ERROR: Failed RpcCliCreateContext error 1722 Aborting: mpiexec on SERVER is unable to connect to the smpd service on COMPUTE:8677 Other MPI error, error stack: connect failed - The RPC server is unavailable. (errno 1722) 

更令人沮丧的是,有时候我会被提示input密码。 它build议SERVER \ Maarten作为COMPUTE的用户,我已经login在SERVER上的帐户,并且不应该存在于COMPUTE(应该是COMPUTE \ Maarten然后?)。 尽pipe如此,它也失败了:

 SERVER>mpiexec -hosts 1 COMPUTE 1 hostname.exe -pwd Enter Password for SERVER\Maarten: Save Credentials[y|n]? n ERROR: Failed to connect to SMPD Manager Instance error 1726 Aborting: mpiexec on SERVER is unable to connect to the smpd manager on COMPUTE:50915 error 1726 

2:使用MSMPILaunchSvc计算MSMPILaunchSvc – > SERVER

 COMPUTE> mpiexec -hosts 1 SERVER 1 hostname -pwd ERROR: Failed RpcCliCreateContext error 5 Aborting: mpiexec on COMPUTE is unable to connect to the smpd service on SERVER:8677 Other MPI error, error stack: connect failed - Access is denied. (errno 5) 

3:使用smpd守护进程计算MSMPILaunchSvc – > SERVER

  Aborting: mpiexec on COMPUTE is unable to connect to the smpd service on SERVER:8677 Other MPI error, error stack: connect failed - Access is denied. (errno 5) 

4:服务器与MSMPILaunchSvc – >计算与smpd守护进程

 ERROR: Failed to connect to SMPD Manager Instance error 1726 Aborting: mpiexec on SERVER is unable to connect to the smpd manager on COMPUTE:51022 error 1726 

在尝试和错误之后,我发现尝试以不同的configuration运行MS MPI时出现了这些错误和其他非特定错误(在我的案例中,HPC Cluster 2008和HPC Cluster 2012与MSMPI混合使用)。

解决的办法是将所有节点降级到带有HPC集群2008的Windows Server 2008 R2。因为我不使用AD,所以不得不退后使用SMPD守护进程并为其添加防火墙规则(跳过集群pipe理工具)。