Ubuntu 9.10networking绑定 – 随机死亡

这个问题我已经用完了,所以认为SF问题可能会有所帮助。

我们有很多Ubuntu 9.10服务器,我们最近使用标准内核networking绑定从单个NIC切换到绑定的NIC。

这个设置按计划进行(如同以前对各种Linux机器所做的那样),但是我们已经有一些盒子在启用绑定之后简单地放下networking。

这些盒子在networking上停止响应,但通过KVM进行简单的/etc/init.d/networking重新启动将使连接重新联机。

我首先想到的是,1)上行连接停止,2)本地盒子上的东西吹走了networkingconfiguration(例如networkingpipe理器),或者3)连接崩溃了。

不过,我很快就想要在所有四台服务器上进行调查。

  • 该事件不在本地logging在任何服务器上(/ var / log / *,dmesg等)。 我希望看到链接状态或类似的变化。

  • 上行交换机都集中了syslog,也没有loggingnetworking状态的变化,也没有MAC震荡。

  • / proc / net / bonding / bond0报告没有问题

  • 我看不到沿着networkingpipe理器运行的任何东西。

唯一logging的是通过运行服务重启导致的networking状态变化。

最初我们使用mode = 0 (主动 – 主动),但有人build议,它是在networking混淆与MAC存在两个地方我们切换到模式= 1 (主动 – 备用) – 这没有什么区别,服务器失败几个小时之后。

这就像networking只是“停止”。 任何想法的人?

组态

/etc/modprobe.d/bonding.conf

alias bond0 bonding options bonding mode=0 miimon=100 

的/ etc /networking/接口

 auto bond0 iface bond0 inet static address 192.168.1.10 gateway 192.168.1.1 netmask 255.255.255.0 slaves eth0 eth1 up /sbin/ifenslave bond0 eth0 eth1 down /sbin/ifenslave -d bond0 eth0 eth1 auto eth0 iface eth0 inet manual auto eth1 iface eth1 inet manual 

你提供了很less的信息来帮助debugging。

既然你说“一些”的工作。

  • 你检查configuration的差异?
  • 故障只发生在特定的交换机端口上吗?
  • 工作的系统是否具有相同的硬件,内核,NIC,configuration等?
  • 你能“强制”出错吗? 尝试重负载,大包,坏包等,试图触发错误的需求。

Ubuntu甚至在没有绑定的情况下,在特定的configuration中发生了随机的networking故障。 假设现有内核与正在工作的系统匹配,请尝试使用备用内核。

根据使用的交换机和绑定模式,即使单个NIC故障也会导致连接挂起。 尝试使用数据包分析器的双通道透明网桥来确定失败之前使用的最后一个NIC。 另外,请查看发生故障前在电线上发送的最后一个数据包types,标志,重新发送等。

最好的猜测,没有信息 – 错误的内核或硬件错误。 Ubuntu不会是服务器操作系统的首选。 Ubuntu是面向新手桌面Linux用户的。 目前的Ubuntu目标上网本用户。 Ubu是一个很好的select,因为它是受欢迎的桌面 – 更大的论坛,更多的面向桌面的硬件驱动程序,更多的桌面应用程序。 Debian和Centos / RHEL在Linux服务器的“关键任务”生产中都有更大的安装基础。