Articles of 起搏器

起搏器和斯托尼斯:被动节点不会带来资源

我正在与Pacemaker和Stonith一起使用双节点群集(节点称为A和B)以实现高可用性。 两个节点都有一个IPMI作为fence设备。 交易是: A当前正在运行资源 B处于被动模式 然后我断开A节点的供应。 所以A上的每个eth接口和IPMI都不可用。 这里有个诀窍:B试图使A失败,导致A的IPMI无法访问。 当N次尝试完成后,B放弃并进入“Block”状态(在日志文件中称为IDLE)。 这是我的问题:即使史东尼斯A失败,我怎么能强制B拿回资源呢? 我了解后果(并发写入等),但我更喜欢这些相比,根本不可用的服务。

服务器'没有运行'的状态错误httpd_monitor_5000(7):

错误信息 Failed actions: httpd_monitor_5000 on abc-zabserver-b 'not running' (7): call=65, status=complete, last-rc-change='Wed Jul 15 21:44:43 2015', queued=0ms, exec=8ms 个人身份 [root@abc-zabserver-b ~]# pcs status Cluster name: abc-zabvip Last updated: Wed Jul 15 21:50:52 2015 Last change: Wed Jul 15 20:38:07 2015 Stack: cman Current DC: abc-zabserver-b – partition with quorum Version: 1.1.11-97629de 2 Nodes configured 3 […]

起搏器 – 如何监控和停止错误节点上的服务(无需依赖服务)

我有四个节点AD与service1克隆(克隆 – 最大3)和3个虚拟IP。 我有约束 – 克隆-IP1,克隆-IP2,克隆-IP3 – 这只有在起搏器处理服务时才能正常工作。 我想让Pacemaker自动“审核”这些节点,这样当服务启动时,起搏器不会受到制约。 看起来,当节点A,B,C工作在活动状态 – 起搏器不在乎节点D上发生了什么。当我强迫crm_resource -P reprobe时,它会在节点D上停止不必要的服务。有没有办法让起搏器检查所有节点? (multiple_active似乎不工作…)

Pacemaker添加浮动IP导致haproxy克隆资源停止

我有一个标准的2节点HAproxy负载平衡器设置与起搏器1.1(使用PC)和haproxy 1.5。 我有2个浮动IP地址与haproxy服务作为haproxy克隆资源的约束。 我需要在hparoxy-clone服务上添加一个具有相同约束的新的浮动IP。 我的第一个问题是,当我创build浮动IP资源,它开始在没有其他IP地址的节点上。 然后我运行pcs constraint colocation add haproxy-clone with floatIP_189 (floatIP_189是我的新地址)。 这不会将IP地址移动到其他节点,并且haproxy克隆资源将停止。 我可以通过重新启动两个节点上的起搏器服务来重新启动haproxy服务。 如何在不降低stream量的情况下向起搏器添加新的浮动IP,否则会中断负载平衡器上的其他站点。 下面是haproxy.cfg文件,pcs status命令的输出和pcs config命令的输出; [root@t-haproxylb3 haproxy]# cat haproxy.cfg peers QAHAproxypeers peer t-haproxylb3 10.xx185:1024 peer t-haproxylb4 10.xx186:1024 global log 127.0.0.1 local0 # log /dev/log local0 # log /dev/log local1 notice chroot /var/lib/haproxy stats socket /var/lib/haproxy/stats stats timeout 30s tune.ssl.default-dh-param 2048 user […]

起搏器未检测到节点断开

为了在部署生产系统之前testing集群configuration的各个方面,我在Centos 7主机上设置了三个Centos 7 KVM虚拟机。 节点被称为clua,club和cluc。 configuration的资源很less: fence_virsh STONITH资源克隆集 dlm,clvmd和GFS2 FileSystem资源克隆集 我一直在testing各种故障情况。 引起问题的原因是我通过三个节点中的两个节点上的下行接口使节点彼此失去联系。 在这里的testing我有iflu编辑clua和cluc的接口,离开俱乐部独自一人。 我已经证实,我不能在这个状态下的节点之间ping通。 在俱乐部,它或多或less是我所期望的: root@itkclub ~ # pcs status Cluster name: tclu Stack: corosync Current DC: club (version 1.1.15-11.el7_3.4-e174ec8) – partition WITHOUT quorum Last updated: Thu Apr 6 16:23:28 2017 Last change: Thu Apr 6 16:18:33 2017 by root via cibadmin on clua 3 […]

起搏器 – 在断开接口后,集群不会传递到另一个节点

我有Corosync + Pacemaker的下一个场景 节点1: eth0:10.143.0.21/24 eth1:10.10.10.1/30(Corosync通信) eth2:192.168.5.2/24 节点2: eth0:10.143.0.22/24 eth1:10.10.10.2/30(Corosync通信) eth2:192.168.5.3/24 浮动IP的 eth0:10.143.0.23/24 eth2:192.168.5.1/24 接口eth1仅用于corosync通信。 例如我断开networking电缆从接口eth0,但没有任何反应,其他例子我断开networking电缆从接口eth2,我有相同的结果,但我断开networking电缆从接口eth1(corosync通信)和浮动IP的传递到其他节点。 断开资源传递到另一个节点的任何接口时,我该如何做? 问候 UPDATE 我testing了以下设置 crm configure primitive PING-WAN ocf:pacemaker:ping params host_list="10.143.0.1" multiplier="1000" dampen="1s" op monitor interval="1s" crm configure primitive Failover-WAN ocf:heartbeat:IPaddr2 params ip=10.143.0.23 nic=eth0 op monitor interval=10s meta is-managed=true crm configure primitive Failover-LAN ocf:heartbeat:IPaddr2 params ip=192.168.5.1 nic=eth2 op monitor […]

HA在CentOS6.5上不断切换

我在HA组中的centOS上有2个服务器的Asterisk,并且有和平控制器。集群处于主动被动模式,configuration了资源组。问题是服务器从主服务器切换到辅助服务器的时间没有明显的原因。 : PBX1 attrd[2503]: notice: attrd_perform_update: Sent update 327: pingd=0 随后停止资源组和 Oct 3 19:30:39 PBX1 Filesystem(DrbdFS)[14168]: INFO: Trying to unmount /drbd Oct 3 19:30:39 PBX1 Filesystem(DrbdFS)[14168]: INFO: unmounted /drbd successfully Oct 3 19:30:39 PBX1 crmd[2505]: notice: process_lrm_event: LRM operation DrbdFS_stop_0 (call=2046, rc=0, cib-update=2735, confirmed=true) ok Oct 3 19:30:39 PBX1 crmd[2505]: notice: te_rsc_command: Initiating action 32: […]

起搏器复杂的资源托pipe

我正在为主数据库和从属数据库开展一个起搏器项目,以执行基于IP的故障切换。 将有两个IP资源,一个用于主站,另一个用于需要一起移动的从站。 我意识到,我在下面标记的不是一个完整的解决scheme,但要求如下: ip_dbmaster只能在db1或db21上运行 ip_dbslave只能在dbslave1或dbslave2上运行 当ip_dbmaster在db1上时,ip_dbslave必须位于dbslave1上。 当ip_dbmaster在db2上时,ip_dbslave必须在dbslave2上 在ip_dbmaster和ip_dbslave运行之前,做一些“东西”(shell脚本的东西,一些扩展健康检查)。 只有在“stuff”成功的情况下才能迁移 除了资源迁移之外,与上述相同 这是我的基本configuration: node $id="75463ec2-702c-427b-965b-b7ffb7814008" db1 node $id="a1f2d612-2d9f-4872-bf24-024f5bece3ce" dbslave2 node $id="d1d42f67-e4f2-4c71-950f-07d94ac01f8d" dbslave1 node $id="f243d865-c1a1-4d52-9100-b0d36a08207c" db2 primitive ip_dbmaster ocf:heartbeat:IPaddr2 \ params ip="10.153.114.100" cidr_netmask="24" primitive ip_dbslave ocf:heartbeat:IPaddr2 \ params ip="10.153.114.101" cidr_netmask="24" location loc-ip-dbmaster-1 ip_dbmaster \ rule $id="loc-ip-dbmaster-1-rule" 200: #uname eq db1 location loc-ip-dbmaster-2 ip_dbmaster \ rule $id="loc-ip-dbmaster-2-rule" 0: #uname […]

configurationRHEL6.1 GFS集群

我需要configuration共享GFS2文件系统的3节点群集。 平衡器后面的apache需要GFS2作为普通的Documentroot。 你能提出一些关于如何在RHEL / SL 6.1上configurationcorosync + pacemaker + GFS2的指南吗? 顺便说一句,我不需要DRBD,因为我有iSCSI作为共享块设备。

起搏器行为托pipeXen domU资源,这是预期的吗?

我正在使用运行Xen的OpenSuSE 11.3上使用Pacemaker + OpenAIS + Corosync,并试图确定在预期与否共享Xen domU资源时所看到的行为。 集群节点/ dom0:xen01-primary xen01-secondary Xen domUs / Pacemaker资源:xen-db01 xen-db02 xen-db01和xen-db02不应该在同一个dom0上运行。 起搏器configuration可以在http://pastebin.com/5NnPExkm看到,但我有以下的代pipe规则:主机托pipexen-db -inf:xen-db01 xen-db02 启动每个Xen资源后,crm_mon的输出位于http://pastebin.com/vX85TLTP 。 以下是对观察到的起搏器行为的简要描述。 编辑:由于完整的cibadmin输出可能会有所帮助,我已经在http://pastebin.com/h38xCYby 在启动第一个domU资源之后,似乎第二个domU资源启动时,Pacemaker尝试在同一个dom0上启动它们,然后将其迁移。 请注意,xen-db01最初位于xen01-primary上,当xen-db02启动时,xen-db01移动到xen01-secondary,然后尝试返回到失败的xen01-primary。 此外,我很好奇,如果在第二个domU开始后crm_mon的输出中显示的错误是正常的。 我有点怀疑,这是应该如何工作,但我想肯定之前,得到太多。 谢谢, 肯德尔