跑步一周后corosync /起搏器“陈旧”状态

我有一个简单的3节点起搏器/ corosync设置。 Ubuntu 14.04.2。 3个节点,2个资源 – IP – 已configuration。

ii crmsh 1.2.5+hg1034-1ubuntu4 all CRM shell for the pacemaker cluster manager ii pacemaker 1.1.10+git20130802-1ubuntu2.3 amd64 HA cluster resource manager ii pacemaker-cli-utils 1.1.10+git20130802-1ubuntu2.3 amd64 Command line interface utilities for Pacemaker ii corosync 2.3.3-1ubuntu1 amd64 Standards-based cluster framework (daemon and modules) ii libcorosync-common4 2.3.3-1ubuntu1 amd64 Standards-based cluster framework, common library 

工作完美无瑕,除非在没有任何故障转移/重启的情况下离开一个星期,群集将停止响应节点死亡。 我几次能够重现这种情况。

当我重新启动一个节点时,其他节点上的crm status命令将其显示为“UP”(编号期望在两者之间看到状态DOWN)。

如果我重新启动另一个节点,最好是DC,那么最后一个节点上会出现“无法定数量” – 3个中的2个临时下降。

最后当前两次启动时,群集再次健康。

如果现在我重新启动3个节点中的任何一个 – 我立即可以看到在给定节点上用“DOWN”更新crm状态。 这将在未来几天工作,直到它再次变得“陈旧”。

有人可以暗示可以是这个原因吗? 刚刚重新启动的群集完美地工作了几天。 那么DC成了…“陈旧”?

Grease for'corosync \ | pacemakerd | | crmd \ | attrd'在syslogs中没有显示我的问题(或者我错过了)

我应该安排每天重新启动corosync / pacemaker来防止这种奇怪的状态?

这是我的基本corosync.conf文件:

 totem { version: 2 token: 3000 token_retransmits_before_loss_const: 10 join: 60 consensus: 3600 vsftype: none max_messages: 20 clear_node_high_bit: yes secauth: off threads: 0 rrp_mode: none interface { ringnumber: 0 bindnetaddr: 10.20.0.0 mcastaddr: 226.94.1.1 mcastport: 5405 } } amf { mode: disabled } quorum { # Quorum for the Pacemaker Cluster Resource Manager provider: corosync_votequorum expected_votes: 2 } aisexec { user: root group: root } logging { fileline: off to_stderr: yes to_logfile: no to_syslog: yes syslog_facility: daemon debug: off timestamp: on logger_subsys { subsys: AMF debug: off tags: enter|leave|trace1|trace2|trace3|trace4|trace6 } }