在戴尔刀片式服务器等Linux中失去连接

所以我们有一些戴尔刀片和机箱(刀片是M600的,机箱M1000的)和其他系统(R710 MD3000arrays)。 R710通过nfs为刀片导出一个源代码树来构build和testing。

问题是刀片松动nfs坐骑。 刀片在同一个机箱中,看起来像是相同的configuration,连接挂起,甚至无法ping通服务器。 他们最终回来。

实际上,它大多是戴尔,我们有一个从r710到一个交换机在一个机箱中的交换机,另一个交换机,从那里到机箱,都可以有问题。

我们正在运行Centos5或Fedora Core发行版本5(波尔多)。 nfs服务器运行CentOS版本5.4(最终)。

有什么想法吗? 疑难解答提示

这些都是相同的主机,但通过不同的路线:

通过一个开关

[root@b053 ~]# ping svnwatch-data PING storage.rack1.rinera.int (10.1.1.54) 56(84) bytes of data. --- storage.rack1.rinera.int ping statistics --- 9 packets transmitted, 0 received, 100% packet loss, time 7999ms 

通过另一个主机路由:

 [root@b053 ~]# ping svnwatch-data2 PING storage2.rack1.rinera.int (172.16.100.25) 56(84) bytes of data. 64 bytes from 172.16.100.25: icmp_seq=1 ttl=64 time=0.260 ms 64 bytes from 172.16.100.25: icmp_seq=2 ttl=64 time=0.217 ms 64 bytes from 172.16.100.25: icmp_seq=3 ttl=64 time=0.201 ms 64 bytes from 172.16.100.25: icmp_seq=4 ttl=64 time=0.264 ms --- storage2.rack1.rinera.int ping statistics --- 4 packets transmitted, 4 received, 0% packet loss, time 2999ms rtt min/avg/max/mdev = 0.201/0.235/0.264/0.031 ms 

主机连接到不同的机箱交换机(它们是菊花链)

 [root@b053 ~]# ping svnwatch-data-eth2 PING svnwatch-data-eth2.rack1.rinera.int (10.1.1.56) 56(84) bytes of data. 64 bytes from 10.1.1.56: icmp_seq=1 ttl=64 time=0.598 ms 64 bytes from 10.1.1.56: icmp_seq=2 ttl=64 time=0.096 ms 64 bytes from 10.1.1.56: icmp_seq=3 ttl=64 time=0.168 ms --- svnwatch-data-eth2.rack1.rinera.int ping statistics --- 3 packets transmitted, 3 received, 0% packet loss, time 2000ms rtt min/avg/max/mdev = 0.096/0.287/0.598/0.222 ms [root@b053 ~]# 

这是我要检查的。

  • 路由表:ip route show
  • 路由caching:ip route show cache
  • 检查任何奇怪的iptables规则。 iptables -t nat -L -n -v; iptables -L -n -v; iptables -t mangle -L -n -v
  • 检查日志文件。
  • 检查内核版本。
  • 检查sysctl / proc设置,如rp_filter,这在路由/多接口configuration中很重要
  • 检查IP地址冲突等ARP表
  • 当然还有:tcpdump和tcpflow …