我有两台安装了MS MPI 7.1的机器,一台叫做SERVER,一台叫做COMPUTE。 这些机器是在一个简单的Windows工作组(无DA)LAN上设置的,并且都有一个具有相同名称和密码的帐户。
两者都运行MSMPILaunchSvc服务。 这两台机器都可以在本地执行MPI作业,并通过使用hostname
命令进行testing进行validation
SERVER> mpiexec -hosts 1 SERVER 1 hostname SERVER or COMPUTE> mpiexec -hosts 1 COMPUTE 1 hostname COMPUTE
在机器本身的terminal上。
我已经禁用了两台机器上的防火墙,以使事情更轻松。
我的问题是我无法让MPI从远程主机上的SERVER运行作业:
1:服务器与MSMPILaunchSvc – >计算与MSMPILaunchSvc
SERVER> mpiexec -hosts 1 COMPUTE 1 hostname -pwd ERROR: Failed RpcCliCreateContext error 1722 Aborting: mpiexec on SERVER is unable to connect to the smpd service on COMPUTE:8677 Other MPI error, error stack: connect failed - The RPC server is unavailable. (errno 1722)
更令人沮丧的是,有时候我会被提示input密码。 它build议SERVER \ Maarten作为COMPUTE的用户,我已经login在SERVER上的帐户,并且不应该存在于COMPUTE(应该是COMPUTE \ Maarten然后?)。 尽pipe如此,它也失败了:
SERVER>mpiexec -hosts 1 COMPUTE 1 hostname.exe -pwd Enter Password for SERVER\Maarten: Save Credentials[y|n]? n ERROR: Failed to connect to SMPD Manager Instance error 1726 Aborting: mpiexec on SERVER is unable to connect to the smpd manager on COMPUTE:50915 error 1726
2:使用MSMPILaunchSvc计算MSMPILaunchSvc – > SERVER
COMPUTE> mpiexec -hosts 1 SERVER 1 hostname -pwd ERROR: Failed RpcCliCreateContext error 5 Aborting: mpiexec on COMPUTE is unable to connect to the smpd service on SERVER:8677 Other MPI error, error stack: connect failed - Access is denied. (errno 5)
3:使用smpd守护进程计算MSMPILaunchSvc – > SERVER
Aborting: mpiexec on COMPUTE is unable to connect to the smpd service on SERVER:8677 Other MPI error, error stack: connect failed - Access is denied. (errno 5)
4:服务器与MSMPILaunchSvc – >计算与smpd守护进程
ERROR: Failed to connect to SMPD Manager Instance error 1726 Aborting: mpiexec on SERVER is unable to connect to the smpd manager on COMPUTE:51022 error 1726
在尝试和错误之后,我发现尝试以不同的configuration运行MS MPI时出现了这些错误和其他非特定错误(在我的案例中,HPC Cluster 2008和HPC Cluster 2012与MSMPI混合使用)。
解决的办法是将所有节点降级到带有HPC集群2008的Windows Server 2008 R2。因为我不使用AD,所以不得不退后使用SMPD守护进程并为其添加防火墙规则(跳过集群pipe理工具)。