我们最近在我们的networking上build立了一个新的Ubuntu 12.04LTS服务器。 它没有完全configuration,所以它不会超出sshd和默认的apache2安装。 但今天晚上,它似乎已经坠毁。 它没有响应networking或键盘。 但最糟糕的是,它把整个networking都拿下来了。
我对OSI第3层以下的networking堆栈的了解是非常有限的,所以剩下的让我困惑。 当这台机器连接到networking时,没有其他机器可以连接到外部networking。 当事情中断时,运行arp显示我们网关的IP地址( 10.0.1.1 )被列为“无效”。 从networking上拔下服务器可以解决问题,并将其重新插回。 所以坠毁的服务器宣称拥有网关的IP地址?
syslog中没有任何问题导致问题。 关于如何弄清楚什么是错误的,或者我们可以做些什么来防止它再次发生的任何想法? 我很犹豫现在甚至把机器放回networking上。
****更新****
它再次坠毁,我运行了tcpdump -penn arp (感谢bahamat!)几分钟,得到了这个…(删除了时间戳和重复行)
00:1e:65:f8:dc:24 > ff:ff:ff:ff:ff:ff, ethertype ARP (0x0806), length 60: Request who-has 10.0.1.1 tell 10.0.2.191, length 46 00:1e:65:f8:dc:24 > ff:ff:ff:ff:ff:ff, ethertype ARP (0x0806), length 60: Request who-has 10.0.1.44 tell 10.0.2.191, length 46 60:d8:19:d4:71:d6 > ff:ff:ff:ff:ff:ff, ethertype ARP (0x0806), length 60: Request who-has 10.0.1.1 tell 10.0.2.125, length 46 d4:9a:20:04:e9:78 > ff:ff:ff:ff:ff:ff, ethertype ARP (0x0806), length 42: Request who-has 192.168.1.1 tell 192.168.1.100, length 28
****更新2 ****
当networking运行正常时, arping -c4 10.0.1.1返回:
ARPING 10.0.1.1 60 bytes from c0:c1:c0:77:25:8e (10.0.1.1): index=0 time=267.982 usec 60 bytes from c0:c1:c0:77:25:8e (10.0.1.1): index=1 time=422.955 usec 60 bytes from c0:c1:c0:77:25:8e (10.0.1.1): index=2 time=299.215 usec 60 bytes from c0:c1:c0:77:25:8e (10.0.1.1): index=3 time=366.926 usec --- 10.0.1.1 statistics --- 4 packets transmitted, 4 packets received, 0% unanswered (0 extra)
当坏服务器被插入时, arping -c4 10.0.1.1返回:
ARPING 10.0.1.1 --- 10.0.1.1 statistics --- 4 packets transmitted, 0 packets received, 100% unanswered (0 extra)
****上下文****
10.0.xx是主要的子网。 10.0.1.1是主要的互联网网关 10.0.1.44是一台打印机 10.0.2.*设备都是笔记本电脑/工作站 192.168.xx子网 – 你的猜测至less和我一样好。 工作站上的虚拟机? 一个错误configuration的WAP? 有人重新分享wifi? 一台无法使用DHCP的计算机? cd:80结尾,所以没有在转储中列出。 它应该到10.0.3.3 DHCP 谢谢你的帮助。 这个ARP的东西对我来说都是巫术。 数据包只是去IP地址,对不对? ;)
刚刚有完全相同的问题。 突然间,我的大部分networking都断了。 唯一仍在工作的部分是WiFi,我只能连接到路由器,无法到达广域网,没有任何有线LAN计算机回答我的问题。 重新启动路由器几次无济于事我采取了拔掉所有的以太网电缆。 所有的突然它再次工作,重新连接电缆,一切都失败了。 经过一些反复试验,我find了罪魁祸首。 我的无头的Ubuntu 12.04服务器。 我可以通过插入networking来杀死networking,并通过解除networking来恢复networking。 最终我采取了拉扯权力。 当它回来了,它打得很好,我查了系统日志,令我惊讶的是,那里什么都没有。
Sep 17 21:21:44 *** Normal event occuring Sep 17 21:22:16 *** Normal event occuring Sep 17 21:22:48 *** Normal event occuring Sep 17 21:23:20 *** Normal event occuring Sep 17 22:45:36 Atlas kernel: imklog 5.8.6, log source = /proc/kmsg started. Sep 17 22:45:36 Atlas rsyslogd: [origin software="rsyslogd" swVersion="5.8.6" x-pid="1048" x-info="http://www.rsyslog.com"] start Sep 17 22:45:36 Atlas rsyslogd: rsyslogd's groupid changed to 103 Sep 17 22:45:36 Atlas rsyslogd: rsyslogd's userid changed to 101
奇怪的确有些令人担忧。 我的服务器不但自从我第一次启动以来一直稳定下来,而且还设法将networking的其余部分与它连接起来。
那么我可以告诉你,192.168.1.x上的机器是发给苹果的MAC地址。
你是否收到网关本身的ARP请求? 怎么样从交换机上倾倒stream量? 这听起来像Ubuntu机器可能会发送不应该的ARP,它可能会混淆交换机。