起搏器 – 在断开接口后,集群不会传递到另一个节点

我有Corosync + Pacemaker的下一个场景

节点1:

eth0:10.143.0.21/24

eth1:10.10.10.1/30(Corosync通信)

eth2:192.168.5.2/24

节点2:

eth0:10.143.0.22/24

eth1:10.10.10.2/30(Corosync通信)

eth2:192.168.5.3/24

浮动IP的

eth0:10.143.0.23/24

eth2:192.168.5.1/24

接口eth1仅用于corosync通信。

例如我断开networking电缆从接口eth0,但没有任何反应,其他例子我断开networking电缆从接口eth2,我有相同的结果,但我断开networking电缆从接口eth1(corosync通信)和浮动IP的传递到其他节点。

断开资源传递到另一个节点的任何接口时,我该如何做?

问候

UPDATE

我testing了以下设置

crm configure primitive PING-WAN ocf:pacemaker:ping params host_list="10.143.0.1" multiplier="1000" dampen="1s" op monitor interval="1s" crm configure primitive Failover-WAN ocf:heartbeat:IPaddr2 params ip=10.143.0.23 nic=eth0 op monitor interval=10s meta is-managed=true crm configure primitive Failover-LAN ocf:heartbeat:IPaddr2 params ip=192.168.5.1 nic=eth2 op monitor interval=10s meta is-managed=true crm configure group Cluster Failover-WAN Failover-LAN crm configure location Best_Connectivity Cluster rule pingd: defined pingd 

它适用于我断开networking电缆从eth0和失去ping到目的地10.143.0.1(网关)资源被移动到另一个节点,但我的scheme是3接口,所以我决定添加一个pingtesting更多

 crm configure primitive PING-LAN ocf:pacemaker:ping params host_list="192.168.5.4" multiplier="1000" dampen="1s" op monitor interval="1s" 

但现在有必要丢失与两个主机(10.143.0.1和192.168.5.4)的连接,以便将资源移动到另一个节点。

我正在寻找信息,但我不能使以下scheme的工作:

如果节点失去了连接到任何添加到pingtesting中的主机的连接,则其他资源将转到另一个节点,而不需要同时丢失所有pingtesting的连接。

你需要告诉Pacemaker你关心接口失败。 看看ocf:pacemaker:ping资源。 您可以使用该资源代理来ping不同接口的networking上的其他主机列表,如果这些ping失败,Pacemaker将作出反应。

如果您将ocf:pacemaker:ping资源分组,或使用约束关联它们,则无论您在Pacemaker中pipe理什么,它们都将一起移动。

另外,我敢打赌,当你在之前的testing中拔掉eth1时,IP并没有“移动”,而是同时在两个集群节点上启动。 到了集群节点,他们都认为自己的同伴失踪了。 您基本上正在testing如果群集分区会发生什么。

在这个说明中,你应该确定在你的Corosyncconfiguration中另外一个答案build议的第二个冗余环,但是这不会有你要找的效果。

更新0:你应该将两个IP添加到同一个ping原语的host_list而不是添加一个额外的ping原语,并将该原语的failure_score设置为任何可接受的。

来自ocf:pacemaker:ping资源代理( # crm ra info ocf:pacemaker:ping ):

 ... failure_score (integer): Resource is failed if the score is less than failure_score. Default never fails. host_list* (string): Host list A space separated list of ping nodes to count. ... 

例如: # crm configure primitive PING-O-DOOM ocf:pacemaker:ping params host_list="10.143.0.1 192.168.5.4" failure_score="2" op monitor interval="10s"

您需要在corosync环中configuration两个接口。

例:

 pcs cluster auth node1 node2 pcs cluster setup --start --name zfs-cluster zfs-node1,zfs-node1-ext zfs-node2,zfs-node2-ext 

哪里:

 # Management addresses of both nodes 172.16.40.15 zfs-node1.ewwhite.net zfs-node1 172.16.40.16 zfs-node2.ewwhite.net zfs-node2 # Cluster ring address for heartbeat 192.168.91.1 zfs-node1-ext 192.168.91.2 zfs-node2-ext