所以我试图在我的以太网networking旁边build立一个Infinibandnetworking。
我有10个计算节点和一个导体节点。 所有11台机器都运行CentOS,并插入Infiniband交换机和以太网交换机。
以太网:192.168.1.0/24 Infiniband:192.168.2.0/24
指挥节点是192.168.1.125(以太网)和192.168.2.125(Infiniband)。 计算节点X是192.168.1.10X(以太网)和192.1.168.2.10X(以太网)。 所有IP地址都是静态分配的。
所以我login到其中一个计算节点(compute-7):
这里是/etc/sysconfig/network-scripts/ifcfg-em1
DEVICE=em1 ONBOOT=yes NM_CONTROLLED=no BOOTPROTO=none IPV6INIT=no USERCTL=no IPADDR=192.168.1.107 NETMASK=255.255.255.0 NETWORK=192.168.1.0 BROADCAST=192.168.1.255 GATEWAY=192.168.1.125 #via conductor node DNS1=192.168.1.125 #via conductor node
这里是/etc/sysconfig/network-scripts/ifcfg-ib0
DEVICE=ib0 ONBOOT=yes NM_CONTROLLED=no BOOTPROTO=none IPV6INIT=no USERCTL=no TYPE=InfiniBand IPADDR=192.168.2.107 NETMASK=255.255.255.0 NETWORK=192.168.2.0 BROADCAST=192.168.2.255
当我做:
sudo network restart在这个计算节点上sudo network restart ,这里是ifconfig -a :
em1 Link encap:Ethernet HWaddr xx:xx:xx:xx:3A:FB inet addr:192.168.1.107 Bcast:192.168.1.255 Mask:255.255.255.0 UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 RX packets:1236641045 errors:0 dropped:0 overruns:0 frame:0 TX packets:1239585124 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:1000 RX bytes:1561224959733 (1.4 TiB) TX bytes:1560979085053 (1.4 TiB) Memory:91220000-91240000 ib0 Link encap:InfiniBand HWaddr 80:00:00:48:FE:80:00:00:00:00:00:00:00:00:00:00:00:00:00:00 inet addr:192.168.2.107 Bcast:192.168.2.255 Mask:255.255.255.0 UP BROADCAST RUNNING MULTICAST MTU:2044 Metric:1 RX packets:0 errors:0 dropped:0 overruns:0 frame:0 TX packets:0 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:256 RX bytes:0 (0.0 b) TX bytes:0 (0.0 b)
和route -nn给出:
Kernel IP routing table Destination Gateway Genmask Flags Metric Ref Use Iface 192.168.2.0 0.0.0.0 255.255.255.0 U 0 0 0 ib0 192.168.1.0 0.0.0.0 255.255.255.0 U 0 0 0 em1 169.254.0.0 0.0.0.0 255.255.0.0 U 1002 0 0 em1 169.254.0.0 0.0.0.0 255.255.0.0 U 1004 0 0 ib0 0.0.0.0 192.168.1.125 0.0.0.0 UG 0 0 0 em1
这不是我想要的! 我希望192.168.2.107(计算节点7)能够通过192.168.2.xnetworking与192.168.2.108(计算节点8)交谈。 以上路线不正确!
在这种情况下,我的Infiniband节点无法互相通信。 – 对192.168.2.0/24子网的请求通过192.168.1.125(以太网)路由,这是非常慢的。
我一直在试图设置文件
/etc/sysconfig/network-scripts/route-em1
和
/etc/sysconfig/network-scripts/route-ib0
用线条如:
192.168.1.0 netmask 255.255.255.0 gw 192.168.1.125 dev em1
192.168.2.0 netmask 255.255.255.0 gw 192.168.2.125 dev ib0
但每次我重新启动networking,我得到错误的路由…
任何人都可以请帮我,我可能会得到正确的路线?
恐怕我没有一个完整的networking了解,我发现我在这里“黑客”很多…
谁能帮我? 我所要做的就是能够以ssh ostrich@compute-8-ib (Infiniband)的方式执行我目前可以执行ssh ostrich@compute-8 (以太网)
一旦我find了一个静态networking,我将使用DHCP完成所有的命名,但现在, 我只是把重点放在静态的方面。
@Frederic尼尔森:
这是导体节点上的路由表:
192.168.2.0 0.0.0.0 255.255.255.0 U 0 0 0 ib0 192.168.1.0 0.0.0.0 255.255.255.0 U 0 0 0 em1 137.43.92.0 0.0.0.0 255.255.254.0 U 0 0 0 em2 169.254.0.0 0.0.0.0 255.255.0.0 U 1002 0 0 em1 169.254.0.0 0.0.0.0 255.255.0.0 U 1003 0 0 em2 169.254.0.0 0.0.0.0 255.255.0.0 U 1004 0 0 ib0 0.0.0.0 187.42.92.1 0.0.0.0 UG 0 0 0 em2