当出现故障节点时,心跳将无法成功启动冷引导的资源

我目前有两个运行Heartbeat和DRBD的ubuntu服务器。 服务器直接与eth1上的1000Mbps交叉电缆连接,并且可以访问eth0上的IP摄像机LAN。

现在让我们假设一个节点closures,剩下的function节点在closures后启动。 仍在运行的节点不会启动心跳,并提供从冷启动到drbd资源的访问权限。 我必须手动重新启动心跳sudo service heartbeat restart ,让一切正常运行。

当只有一台服务器时,我怎么才能从冷启动开始呢?

这里是ha.cf

 debugfile /var/log/ha-debug logfile /var/log/ha-log logfacility none keepalive 2 deadtime 10 warntime 7 initdead 60 ucast eth1 192.168.2.2 ucast eth0 10.1.10.201 node EMserver1 node EMserver2 respawn hacluster /usr/lib/heartbeat/ipfail ping 10.1.10.22 10.1.10.21 10.1.10.11 auto_failback off 

系统日志中的一些资料:

 harc [4604]:2012/11 / 27_13:54:49 info:运行/etc/ha.d//rc.d/status状态
 mach_down [4632]:2012/11 / 27_13:54:49 info:/ usr / share / heartbeat / mach_down:nice_failback:获取的外部资源
 mach_down [4632]:2012/11 / 27_13:54:49 info:mach_down接pipe完成节点emserver2。
 11月27日13:54:49 EMserver1心跳:[4586]:info:初始资源获取完成(T_RESOURCES(us))
 11月27日13:54:49 EMserver1心跳:[4586]:info:mach_down接pipe完成。
 IPaddr [4679]:2012/11 / 27_13:54:49信息:资源已停止
 11月27日13:54:49 EMserver1心跳:[4605]:info:完成本地资源获取。
 harc [4713]:2012/11 / 27_13:54:49 info:运行/etc/ha.d//rc.d/ip-request-resp ip-request-resp
 ip-request-resp [4713]:2012/11 / 27_13:54:49 received ip-request-resp IPaddr :: 10.1.10.254 OK yes
 ResourceManager [4732]:2012/11 / 27_13:54:50 info:获取资源组:emserver1 IPaddr :: 10.1.10.254 drbddisk :: r0 Filesystem :: / dev / drbd1 :: / shr :: ext4 nfs-kernel-server
 IPaddr [4759]:2012/11 / 27_13:54:50信息:资源已停止
 ResourceManager [4732]:2012/11 / 27_13:54:50 info:运行/etc/ha.d/resource.d/IPaddr 10.1.10.254启动
 IPaddr [4816]:2012/11 / 27_13:54:50信息:使用10.1.10.254的计算网格:eth0
 IPaddr [4816]:2012/11 / 27_13:54:50信息:使用10.1.10.254的计算networking掩码:255.255.255.0
 IPaddr [4816]:2012/11 / 27_13:54:50 INFO:eval ifconfig eth0:0 10.1.10.254 netmask 255.255.255.0 broadcast 10.1.10.255
 IPaddr [4804]:2012/11 / 27_13:54:50信息:成功
 ResourceManager [4732]:2012/11 / 27_13:54:50 info:运行/etc/ha.d/resource.d/drbddisk r0 start
文件系统[4965]:2012/11 / 27_13:54:50信息:资源已停止
 ResourceManager [4732]:2012/11 / 27_13:54:50 info:运行/etc/ha.d/resource.d/Filesystem/ dev / drbd1 / shr ext4 start
文件系统[5039]:2012/11 / 27_13:54:50信息:在/ shr上运行/ dev / drbd1的启动
文件系统[5033]:2012/11 / 27_13:54:51信息:成功
 ResourceManager [4732]:2012/11 / 27_13:54:51 info:运行/etc/init.d/nfs-kernel-server start
 11月27 13:55:00 EMserver1心跳:[4586]:info:本地资源获取完成。  (没有)
 11月27日13:55:00 EMserver1心跳:[4586]:info:本地资源转换完成。
 11月27日13:57:46 EMserver1心跳:[4586]:info:心跳关机正在进行中。  (4586)
 11月27日13:57:46 EMserver1心跳:[5286]:info:放弃所有HA资源。
 ResourceManager [5301]:2012/11 / 27_13:57:46 info:释放资源组:emserver1 IPaddr :: 10.1.10.254 drbddisk :: r0 Filesystem :: / dev / drbd1 :: / shr :: ext4 nfs-kernel-server
 ResourceManager [5301]:2012/11 / 27_13:57:46 info:运行/etc/init.d/nfs-kernel-server stop
 ResourceManager [5301]:2012/11 / 27_13:57:46 info:运行/etc/ha.d/resource.d/Filesystem/ dev / drbd1 / shr ext4 stop
文件系统[5372]:2012/11 / 27_13:57:46信息:在/ shr上运行/ dev / drbd1的stop
文件系统[5372]:2012/11 / 27_13:57:47信息:尝试卸载/ shr
文件系统[5372]:2012/11 / 27_13:57:47 INFO:unmounted / shr successfully
文件系统[5366]:2012/11 / 27_13:57:47信息:成功
 ResourceManager [5301]:2012/11 / 27_13:57:47 info:运行/etc/ha.d/resource.d/drbddisk r0 stop
 ResourceManager [5301]:2012/11 / 27_13:57:47 info:运行/etc/ha.d/resource.d/IPaddr 10.1.10.254 stop
 IPaddr [5509]:2012/11 / 27_13:57:47 INFO:ifconfig eth0:0 down
 IPaddr [5497]:2012/11 / 27_13:57:47信息:成功
 11月27日13:57:47 EMserver1心跳:[5286]:info:放弃所有HA资源。
 11月27日13:57:48 EMserver1心跳:[4586]:信息:杀死/ usr / lib /心跳/ ipfail进程组4603与信号15
 11月27日13:57:49 EMserver1心跳:[4586]:信息:杀死信号15的HBFIFO进程4589
 11月27日13:57:49 EMserver1心跳:[4586]:信息:杀死HBWRITE进程4590与信号15
 11月27日13:57:49 EMserver1心跳:[4586]:info:用信号15杀死HBREAD进程4591
 11月27日13:57:49 EMserver1心跳:[4586]:信息:杀死HBWRITE进程4592与信号15
 11月27日13:57:49 EMserver1心跳:[4586]:信息:用信号15杀死HBREAD进程4593
 11月27日13:57:49 EMserver1心跳:[4586]:信息:杀死HBWRITE进程4594与信号15
 11月27日13:57:49 EMserver1心跳:[4586]:info:用信号15杀死HBREAD进程4595
 11月27日13:57:49 EMserver1心跳:[4586]:信息:杀死HBWRITE进程4596与信号15
 11月27日13:57:49 EMserver1心跳:[4586]:info:用信号15查杀HBREAD进程4597
 11月27日13:57:49 EMserver1心跳:[4586]:信息:杀死HBWRITE进程4598与信号15
 11月27日13:57:49 EMserver1心跳:[4586]:信息:用信号15杀死HBREAD进程4599
 11月27日13:57:49 EMserver1心跳:[4586]:信息:核心进程4589退出。 剩下11个
 11月27日13:57:49 EMserver1心跳:[4586]:info:核心进程4596退出。 剩下10个
 11月27日13:57:49 EMserver1心跳:[4586]:info:核心进程4598退出。 剩下9个
 11月27日13:57:49 EMserver1心跳:[4586]:info:退出核心进程4590。 剩下8个
 11月27日13:57:49 EMserver1心跳:[4586]:info:核心进程4595退出。 剩下7个
 11月27日13:57:49 EMserver1心跳:[4586]:info:核心进程4591退出。 剩下6个
 11月27日13:57:49 EMserver1心跳:[4586]:info:核心进程4592退出。 剩下5个
 11月27日13:57:49 EMserver1心跳:[4586]:info:核心进程4593退出。 剩下4个
 11月27日13:57:49 EMserver1心跳:[4586]:info:退出核心进程4597。 剩下3个
 11月27日13:57:49 EMserver1心跳:[4586]:info:核心进程4594退出。 剩下2个
 11月27日13:57:49 EMserver1心跳:[4586]:info:核心进程4599退出。 剩下1个
 11月27日13:57:49 EMserver1心跳:[4586]:info:emserver1心跳closures完成。

这里还有一些来自日志

 ResourceManager [2576]:2012/11 / 28_16:32:42 info:获取资源组:emserver1 IPaddr :: 10.1.10.254 drbddisk :: r0 Filesystem :: / dev / drbd1 :: / shr :: ext4 nfs-kernel-server
 IPaddr [2602]:2012/11 / 28_16:32:42信息:正常运行
文件系统[2653]:2012/11 / 28_16:32:43信息:运行正常
 11月28日16:32:52 EMserver1心跳:[1695]:警告:节点emserver2:已经死了
 11月28日16:32:52 EMserver1心跳:[1695]:info:死亡节点emserver2放弃了资源。
 11月28日16:32:52 EMserver1 ipfail:[1807]:info:状态更新:节点emserver2现在具有状态
 11月28日16:32:52 EMserver1心跳:[1695]:信息:链接emserver2:eth1死亡。
 11月28日16:32:53 EMserver1 ipfail:[1807]:info:NS:我们还活着!
 11月28日16:32:53 EMserver1 ipfail:[1807]:info:链接状态更新:链接emserver2 / eth1现在具有状态已停用
 11月28日16:32:55 EMserver1 ipfail:[1807]:info:向另一侧请求ping节点计数。
 11月28日16:32:55 EMserver1 ipfail:[1807]:信息:检查ping节点的远程计数。
 11月28日16:32:57 EMserver1心跳:[1695]:info:心跳关机正在进行中。  (1695)
 11月28日16:32:57 EMserver1心跳:[2734]:info:放弃所有HA资源。
 ResourceManager [2751]:2012/11 / 28_16:32:57 info:释放资源组:emserver1 IPaddr :: 10.1.10.254 drbddisk :: r0 Filesystem :: / dev / drbd1 :: / shr :: ext4 nfs-kernel-server
 ResourceManager [2751]:2012/11 / 28_16:32:57 info:运行/etc/init.d/nfs-kernel-server stop
 ResourceManager [2751]:2012/11 / 28_16:32:57 info:运行/etc/ha.d/resource.d/Filesystem / dev / drbd1 / shr ext4 stop
文件系统[2829]:2012/11 / 28_16:32:57信息:在/ shr上为/ dev / drbd1运行stop
文件系统[2829]:2012/11 / 28_16:32:57信息:尝试卸载/ shr
文件系统[2829]:2012/11 / 28_16:32:58 INFO:unmounted / shr successfully
文件系统[2823]:2012/11 / 28_16:32:58信息:成功
 ResourceManager [2751]:2012/11 / 28_16:32:58 info:运行/etc/ha.d/resource.d/drbddisk r0 stop
 ResourceManager [2751]:2012/11 / 28_16:32:58 info:运行/etc/ha.d/resource.d/IPaddr 10.1.10.254 stop
 IPaddr [2971]:2012/11 / 28_16:32:58 INFO:ifconfig eth0:down
 IPaddr [2958]:2012/11 / 28_16:32:58信息:成功
 11月28日16:32:58 EMserver1心跳:[2734]:info:放弃所有HA资源。
 11月28日16:32:59 EMserver1心跳:[1695]:信息:杀死/ usr / lib /心跳/ ipfail进程组1807与信号15
 11月28日16:33:01 EMserver1心跳:[1695]:信息:杀死HBFIFO进程1777信号15
 11月28日16:33:01 EMserver1心跳:[1695]:信息:杀死HBWRITE进程1778信号15
 11月28日16:33:01 EMserver1心跳:[1695]:info:用信号15杀死HBREAD进程1779
 11月28日16:33:01 EMserver1心跳:[1695]:信息:杀死HBWRITE进程1780信号15
 11月28日16:33:01 EMserver1心跳:[1695]:信息:杀死信号15的HBREAD进程1781
 11月28日16:33:01 EMserver1心跳:[1695]:信息:杀死HBWRITE进程1782信号15
 11月28日16:33:01 EMserver1心跳:[1695]:info:用信号15杀死HBREAD进程1783
 11月28日16:33:01 EMserver1心跳:[1695]:信息:杀死HBWRITE进程1784信号15
 11月28日16:33:01 EMserver1心跳:[1695]:信息:杀死信号15的HBREAD进程1785
 11月28日16:33:01 EMserver1心跳:[1695]:信息:杀死HBWRITE进程1786信号15
 11月28日16:33:01 EMserver1心跳:[1695]:信息:杀死HBREAD进程1787与信号15
 11月28日16:33:01 EMserver1心跳:[1695]:信息:核心进程1778退出。 剩下11个
 11月28日16:33:01 EMserver1心跳:[1695]:信息:核心进程1779退出。 剩下10个
 11月28日16:33:01 EMserver1心跳:[1695]:信息:核心进程1780退出。 剩下9个
 11月28日16:33:01 EMserver1心跳:[1695]:信息:核心进程1781退出。 剩下8个
 11月28日16:33:01 EMserver1心跳:[1695]:信息:核心进程1782退出。 剩下7个
 11月28日16:33:01 EMserver1心跳:[1695]:信息:核心进程1783退出。 剩下6个
 11月28日16:33:01 EMserver1心跳:[1695]:信息:核心进程1784退出。 剩下5个
 11月28日16:33:01 EMserver1心跳:[1695]:信息:核心进程1785退出。 剩下4个
 11月28日16:33:01 EMserver1心跳:[1695]:信息:核心进程1786退出。 剩下3个
 11月28日16:33:01 EMserver1心跳:[1695]:信息:核心进程1787退出。 剩下2个
 11月28日16:33:01 EMserver1心跳:[1695]:信息:核心进程1777退出。 剩下1个
 11月28日16:33:01 EMserver1心跳:[1695]:info:emserver1心跳closures完成。

如果我现在重新启动心跳…资源心跳控制将启动罚款….请帮助!

正如评论中的命令是我最初的答复forms。

如果您运行的是最新的Ubuntu版本(10.04或更新版本),则应该完全抛弃Heartbeat,而使用Corosync和Pacemaker。 虽然这不是你的问题的答案或解决scheme,但正如你所看到的那样,你的问题就会消失。

关于Pacemaker的一篇很棒的介绍性文章是在Linux杂志上发表的, Scratch的Clusters是让Corosync和Pacemaker运行起来的一个很好的起点。 对于Ubuntu 10.04,请使用官方稳定的backported群集堆栈的PPA: https : //launchpad.net/~ubuntu-ha-maintainers/+archive/ppa

旧的Heartbeat堆栈有许多概念上的缺陷,已经被废弃了很长时间,现在不值得尝试debugging如果今天使用它会出现的问题。 Corosync和Pacemaker是由于这个原因而创build的,他们的工作比Heartbeat更好,甚至不是资源pipe理者。