间歇性不通畅的子网

上周certificate了我是名副其实的Cassandra：我一直说没有备份或故障切换，只有一个防火墙/路由器是个坏主意。因此，我们的思科PIX发生故障，拒绝正确路由。当然，在短时间内只能在这里得到的是我，而我完全是Linux的基础，我真的是一个开发人员，而不是一个系统pipe理员（事实上，这在系统pipe理员的欣赏日打了我有点讽刺）。

无论如何，这个周末我试图破解一个临时的解决scheme：我用了一个带有足够的网卡的旧服务器（两个内置网卡，四个网卡）作为网关和防火墙。由于raid控制器的一些问题，我只有两个路由器发行版运行，而Untangle和Ebox之间我决定使用后者。

现在一切都很好。我已经有了所有不同的子网（我们都有单独的交换机）互相交谈，甚至互联网（Cisco 2800路由器，T1线路）。但是不时（20-60分钟），我得到一个总的路由失败。我们的主办公室子网不能与我们的服务器子网通话，也不能连接到互联网。这不是逐渐放缓的结束，要么是一切正常，要么每次总共缺less两分钟的交stream。

现在我有点有点结束什么检查。至less在默认的EBox设置下，/ var / log中没有任何东西显示出奇怪的东西，而且并不完全拥有大量的内置监视工具。所以我希望这里有人可以给我一些关于什么要注意的指针。我没有将办公室交换机的以太网电缆换成防火墙，没有任何结果。我可能会改变交换机，尽pipe在交换机内似乎工作得很好。

编辑：我不知道这是否是问题的唯一原因，但是在我注意到在最后一滴连接之前的几个DHCP条目之后，我尝试重现该条目。唉，每当我更新一个DHCP连接，我不能再访问其他子网。运行ISC DHCPD 3.0.6。

是否有任何固件更新可用于您的网卡？如果它是一个非常旧的服务器，可能是间歇性连接问题已经在更新中解决？至less浏览任何固件版本说明并不会有什么坏处，所以请看这个问题是否被提及。

肯定要检查dmesg（命令的输出，而不仅仅是/ var / log /中的），我会检查netstat -s并将其与“sysctl -a”中的各种ip限制进行比较。特别是如果你在做NAT，你可能会遇到某种连接限制。

您可能会尝试在停机期间使用脚本来在其中一个接口上获取数据包转储。例如“while [1];做ping -c 1 || tcpdump -s 0 -i eth0 -c 100; sleep 10; done”

20-60秒听起来像是生成树再收敛。检查您的交换机日志（我假设这些交换机是托pipe交换机），并找出正在导致收敛的正在拔出/重新插入的内容。如果一台设备只有一根电缆连接到交换机，请将该交换机端口设置为portfast。或者你总是可以挖掘根本原因，并找出是什么导致港口上下。：D祝你好运！

同时检查dmesg ，看看有没有networking相关的东西。有些司机偶尔会因各种驾驶员/卡片相关问题而无反应。