在戴尔刀片式服务器等Linux中失去连接

所以我们有一些戴尔刀片和机箱（刀片是M600的，机箱M1000的）和其他系统（R710 MD3000arrays）。 R710通过nfs为刀片导出一个源代码树来构build和testing。

问题是刀片松动nfs坐骑。刀片在同一个机箱中，看起来像是相同的configuration，连接挂起，甚至无法ping通服务器。他们最终回来。

实际上，它大多是戴尔，我们有一个从r710到一个交换机在一个机箱中的交换机，另一个交换机，从那里到机箱，都可以有问题。

我们正在运行Centos5或Fedora Core发行版本5（波尔多）。 nfs服务器运行CentOS版本5.4（最终）。

有什么想法吗？疑难解答提示

这些都是相同的主机，但通过不同的路线：

通过一个开关

[root@b053 ~]# ping svnwatch-data PING storage.rack1.rinera.int (10.1.1.54) 56(84) bytes of data. --- storage.rack1.rinera.int ping statistics --- 9 packets transmitted, 0 received, 100% packet loss, time 7999ms

通过另一个主机路由：

 [root@b053 ~]# ping svnwatch-data2 PING storage2.rack1.rinera.int (172.16.100.25) 56(84) bytes of data. 64 bytes from 172.16.100.25: icmp_seq=1 ttl=64 time=0.260 ms 64 bytes from 172.16.100.25: icmp_seq=2 ttl=64 time=0.217 ms 64 bytes from 172.16.100.25: icmp_seq=3 ttl=64 time=0.201 ms 64 bytes from 172.16.100.25: icmp_seq=4 ttl=64 time=0.264 ms --- storage2.rack1.rinera.int ping statistics --- 4 packets transmitted, 4 received, 0% packet loss, time 2999ms rtt min/avg/max/mdev = 0.201/0.235/0.264/0.031 ms

主机连接到不同的机箱交换机（它们是菊花链）

 [root@b053 ~]# ping svnwatch-data-eth2 PING svnwatch-data-eth2.rack1.rinera.int (10.1.1.56) 56(84) bytes of data. 64 bytes from 10.1.1.56: icmp_seq=1 ttl=64 time=0.598 ms 64 bytes from 10.1.1.56: icmp_seq=2 ttl=64 time=0.096 ms 64 bytes from 10.1.1.56: icmp_seq=3 ttl=64 time=0.168 ms --- svnwatch-data-eth2.rack1.rinera.int ping statistics --- 3 packets transmitted, 3 received, 0% packet loss, time 2000ms rtt min/avg/max/mdev = 0.096/0.287/0.598/0.222 ms [root@b053 ~]#

这是我要检查的。

路由表：ip route show
路由caching：ip route show cache
检查任何奇怪的iptables规则。 iptables -t nat -L -n -v; iptables -L -n -v; iptables -t mangle -L -n -v
检查日志文件。
检查内核版本。
检查sysctl / proc设置，如rp_filter，这在路由/多接口configuration中很重要
检查IP地址冲突等ARP表
当然还有：tcpdump和tcpflow …