生产服务器可能突然不能访问互联网了

问题

所有的生产服务器都突然无法访问互联网了,而连接到相同的VLAN和相同的eth0设置的其他四个服务器可以。

在这里输入图像说明

图1: System 1代表能够访问互联网的四个系统,而System 2显示自今天下午以来突然无法访问的System 2

分析

  • 系统1可以访问系统2,反之亦然
  • Default Gateway (10.10.10.1)也可以从系统1和系统2 ping通
  • 系统1可以访问互联网
  • 系统2不能访问互联网
  • 所有生产服务器之间的Ifconfig eth0configuration完全相同
  • 内部DNS服务器与其他可以访问互联网的系统相同
  • 可以访问位于/etc/resolve.conf的IP和名称
  • 互联网可以从交换机访问
  • 在Cisco IOS上configuration全部8个交换机端口是相同的
  • Trace2从系统2到8.8.8.8(DNS谷歌),谷歌IP或google.com挂在Default Gateway
  • 无法访问系统的系统似乎有一个em1适配器而不是eth0
  • sudo arping -I eth0 ping.tweakers.net适用于所有8个系统
  • 如果sudo iptables-save已经执行,其中一个无法访问互联网的系统显示输出
  • 输出route -n在所有系统之间是相同的

tracepath的

 [username@hostname ~]$ tracepath google.com 1: 10.10.10.10 (10.10.10.10) 0.222ms pmtu 1500 1: 10.10.10.1 (10.10.10.1) 0.662ms 1: 10.10.10.1 (10.10.10.1) 0.601ms 2: no reply 

地址parsing协议

System1:? ? (10.10.10.1) at AA:BB:CC:DD:EE:FF [ether] on em1

System2:? ? (10.10.10.1) at AA:BB:CC:DD:EE:FF [ether] on eth0

在其中一个不能访问互联网的系统上输出iptables-save

 # Generated by iptables-save vX on Fri Aug 1 10:00:01 2014 *filter :INPUT ACCEPT [X:Y] :FORWARD ACCEPT [0:0] :OUTPUT ACCEPT [X:Y] COMMIT # Completed on Fri Aug 1 10:00:01 2014 

路线-n

 Kernel IP routing table Destination Gateway Genmask Flags Metric Ref Use Iface 10.10.10.0 0.0.0.0 255.255.255.0 U 0 0 0 eth0 XY0.0 0.0.0.0 255.255.0.0 UZ 0 0 eth0 0.0.0.0 10.10.10.1 0.0.0.0 UG 0 0 0 eth0 

目前还不清楚为什么四台生产服务器无法访问互联网。 当这些在生产中运行时,应该防止重新启动networking。 可以进行哪些进一步的testing来调查问题?

检查dmesg的输出是什么

路线-n

说?

ifconfig的internet指向接口的输出是什么?

你可以ping默认网关?

另外,请检查交换机端口以及生产服务器上是否存在子网掩码问题。