起搏器故障超时不会重置故障计数

我在Centos7上使用Pacemaker 1.1.13和Corosync 2.3.4。

我有一个主/从资源的问题。 有我的资源meta attrs:

迁移阈值= 1

失败超时= 10S

但是当资源宕机时,只有一次尝试启动它。 文档说,属性failure-timeout = 10s应该每10秒重置一次failcount,但是这并没有发生,所以资源永远不会启动。

你知道这个问题吗? 也许我做错了什么? 我正在发送下面的“电脑状态”:

Cluster Name: webcluster Corosync Nodes: 10.121.100.101 10.121.100.102 Pacemaker Nodes: pm-node1 pm-node2 Resources: Master: Services-master Meta Attrs: failure-timeout=10s Group: Services Meta Attrs: migration-threshold=1 Resource: Test (class=ocf provider=scooty type=test) Operations: start interval=0s timeout=20 (Test-start-interval-0s) stop interval=0s timeout=20 (Test-stop-interval-0s) monitor interval=10 role=Master timeout=20 (Test-monitor-interval-10) monitor interval=11 role=Slave timeout=20 (Test-monitor-interval-11) Stonith Devices: Fencing Levels: Location Constraints: Ordering Constraints: Colocation Constraints: Resources Defaults: migration-threshold: 1 failure-timeout: 10 Operations Defaults: No defaults set Cluster Properties: cluster-infrastructure: corosync cluster-name: webcluster dc-version: 1.1.13-10.el7_2.4-44eb2dd have-watchdog: false last-lrm-refresh: 1475145002 no-quorum-policy: ignore start-failure-is-fatal: false stonith-enabled: false 

根据故障的types, failure-timeout可能不足以清除failure-timeout 。 启动和停止操作失败被认为是“致命的”,不会被失败超时自动清除。

如果遇到启动操作失败的问题,可以设置群集属性start-failure-is-fatal=false 。 防护/ STONITH设备是从停止故障中恢复的唯一方法。

希望有所帮助。