Ubuntu 12崩溃，并夺走了networking

我们最近在我们的networking上build立了一个新的Ubuntu 12.04LTS服务器。它没有完全configuration，所以它不会超出sshd和默认的apache2安装。但今天晚上，它似乎已经坠毁。它没有响应networking或键盘。但最糟糕的是，它把整个networking都拿下来了。

我对OSI第3层以下的networking堆栈的了解是非常有限的，所以剩下的让我困惑。当这台机器连接到networking时，没有其他机器可以连接到外部networking。当事情中断时，运行arp显示我们网关的IP地址（ 10.0.1.1 ）被列为“无效”。从networking上拔下服务器可以解决问题，并将其重新插回。所以坠毁的服务器宣称拥有网关的IP地址？

syslog中没有任何问题导致问题。关于如何弄清楚什么是错误的，或者我们可以做些什么来防止它再次发生的任何想法？我很犹豫现在甚至把机器放回networking上。

****更新****

它再次坠毁，我运行了tcpdump -penn arp （感谢bahamat！）几分钟，得到了这个…（删除了时间戳和重复行）

 00:1e:65:f8:dc:24 > ff:ff:ff:ff:ff:ff, ethertype ARP (0x0806), length 60: Request who-has 10.0.1.1 tell 10.0.2.191, length 46 00:1e:65:f8:dc:24 > ff:ff:ff:ff:ff:ff, ethertype ARP (0x0806), length 60: Request who-has 10.0.1.44 tell 10.0.2.191, length 46 60:d8:19:d4:71:d6 > ff:ff:ff:ff:ff:ff, ethertype ARP (0x0806), length 60: Request who-has 10.0.1.1 tell 10.0.2.125, length 46 d4:9a:20:04:e9:78 > ff:ff:ff:ff:ff:ff, ethertype ARP (0x0806), length 42: Request who-has 192.168.1.1 tell 192.168.1.100, length 28

****更新2 ****

当networking运行正常时， arping -c4 10.0.1.1返回：

 ARPING 10.0.1.1 60 bytes from c0:c1:c0:77:25:8e (10.0.1.1): index=0 time=267.982 usec 60 bytes from c0:c1:c0:77:25:8e (10.0.1.1): index=1 time=422.955 usec 60 bytes from c0:c1:c0:77:25:8e (10.0.1.1): index=2 time=299.215 usec 60 bytes from c0:c1:c0:77:25:8e (10.0.1.1): index=3 time=366.926 usec --- 10.0.1.1 statistics --- 4 packets transmitted, 4 packets received, 0% unanswered (0 extra)

当坏服务器被插入时， arping -c4 10.0.1.1返回：

 ARPING 10.0.1.1 --- 10.0.1.1 statistics --- 4 packets transmitted, 0 packets received, 100% unanswered (0 extra)

****上下文****

10.0.xx是主要的子网。
10.0.1.1是主要的互联网网关
10.0.1.44是一台打印机
10.0.2.*设备都是笔记本电脑/工作站
我不知道什么是192.168.xx子网 – 你的猜测至less和我一样好。工作站上的虚拟机？一个错误configuration的WAP？有人重新分享wifi？一台无法使用DHCP的计算机？
有问题的ubuntu服务器的MAC地址以cd:80结尾，所以没有在转储中列出。它应该到10.0.3.3 DHCP

谢谢你的帮助。这个ARP的东西对我来说都是巫术。数据包只是去IP地址，对不对？ ;）

刚刚有完全相同的问题。突然间，我的大部分networking都断了。唯一仍在工作的部分是WiFi，我只能连接到路由器，无法到达广域网，没有任何有线LAN计算机回答我的问题。重新启动路由器几次无济于事我采取了拔掉所有的以太网电缆。所有的突然它再次工作，重新连接电缆，一切都失败了。经过一些反复试验，我find了罪魁祸首。我的无头的Ubuntu 12.04服务器。我可以通过插入networking来杀死networking，并通过解除networking来恢复networking。最终我采取了拉扯权力。当它回来了，它打得很好，我查了系统日志，令我惊讶的是，那里什么都没有。

 Sep 17 21:21:44 *** Normal event occuring Sep 17 21:22:16 *** Normal event occuring Sep 17 21:22:48 *** Normal event occuring Sep 17 21:23:20 *** Normal event occuring Sep 17 22:45:36 Atlas kernel: imklog 5.8.6, log source = /proc/kmsg started. Sep 17 22:45:36 Atlas rsyslogd: [origin software="rsyslogd" swVersion="5.8.6" x-pid="1048" x-info="http://www.rsyslog.com"] start Sep 17 22:45:36 Atlas rsyslogd: rsyslogd's groupid changed to 103 Sep 17 22:45:36 Atlas rsyslogd: rsyslogd's userid changed to 101

奇怪的确有些令人担忧。我的服务器不但自从我第一次启动以来一直稳定下来，而且还设法将networking的其余部分与它连接起来。

那么我可以告诉你，192.168.1.x上的机器是发给苹果的MAC地址。

你是否收到网关本身的ARP请求？怎么样从交换机上倾倒stream量？这听起来像Ubuntu机器可能会发送不应该的ARP，它可能会混淆交换机。