Bond0故障转移,当链接灯保持:高可用性networking

组态:

场景:

  • 二级交换机有内存故障
  • 链路灯保持不变,但交换机不再处理stream量

所以,因为我们使用miimon,只是获取链接状态,所以当交换机出现故障时,我们的服务器都没有禁用链接。 这导致networking中断,并且在eth0在那个辅助交换机的服务器上,他们变得完全不可用。 具有讽刺意味的是,这种情况比刚刚经历过这种情况的人要糟糕,因为他们没有进行故障切换。

我一直在testingarp_interval作为替代,但据我了解,arp_interval有两个限制:

  • arp_ip_target只占用一个IP地址,这意味着如果该IP地址closures,bond0将错误地认为该链路应该closures,并把它closures。 我使用网关作为IP地址,但是如果网关出现故障,仍然可以继续进行内部到交换机的通信。 arp_ip_target也不会这样做; 它只会closures所有接口,甚至到最后。
  • arp_interval取决于一些networkingstream量(?),一个非常安静的链接可能会被错误地closures。

有没有办法绕过这些arp_interval限制? miimon能configuration好吗? 有没有更好的方法来完成HA联网? 我们一直在考虑通过每个服务器上的守护进程来手动处理故障转移,而不是使用arp_interval(即监视链接本身,并使用ifenslave将它们上下)。 我们已经不是表演的中介了, 可靠性真的是我们的首要任务。

你确定你testing过了吗?

根据这个 :

arp_ip_target指定当arp_interval> 0时用作ARP监控对等体的IP地址。多个IP地址必须用逗号分隔。

我有几个服务器上的模式= 1设置[虽然提供单个IP],它运行得很好,即使没有任何stream量的stream量。 故障转移在有和没有通信的情况下被多次testing。