我目前有两个运行Heartbeat和DRBD的ubuntu服务器。 服务器直接与eth1上的1000Mbps交叉电缆连接,并且可以访问eth0上的IP摄像机LAN。
现在让我们假设一个节点closures,剩下的function节点在closures后启动。 仍在运行的节点不会启动心跳,并提供从冷启动到drbd资源的访问权限。 我必须手动重新启动心跳sudo service heartbeat restart ,让一切正常运行。
当只有一台服务器时,我怎么才能从冷启动开始呢?
这里是ha.cf :
debugfile /var/log/ha-debug logfile /var/log/ha-log logfacility none keepalive 2 deadtime 10 warntime 7 initdead 60 ucast eth1 192.168.2.2 ucast eth0 10.1.10.201 node EMserver1 node EMserver2 respawn hacluster /usr/lib/heartbeat/ipfail ping 10.1.10.22 10.1.10.21 10.1.10.11 auto_failback off
系统日志中的一些资料:
harc [4604]:2012/11 / 27_13:54:49 info:运行/etc/ha.d//rc.d/status状态 mach_down [4632]:2012/11 / 27_13:54:49 info:/ usr / share / heartbeat / mach_down:nice_failback:获取的外部资源 mach_down [4632]:2012/11 / 27_13:54:49 info:mach_down接pipe完成节点emserver2。 11月27日13:54:49 EMserver1心跳:[4586]:info:初始资源获取完成(T_RESOURCES(us)) 11月27日13:54:49 EMserver1心跳:[4586]:info:mach_down接pipe完成。 IPaddr [4679]:2012/11 / 27_13:54:49信息:资源已停止 11月27日13:54:49 EMserver1心跳:[4605]:info:完成本地资源获取。 harc [4713]:2012/11 / 27_13:54:49 info:运行/etc/ha.d//rc.d/ip-request-resp ip-request-resp ip-request-resp [4713]:2012/11 / 27_13:54:49 received ip-request-resp IPaddr :: 10.1.10.254 OK yes ResourceManager [4732]:2012/11 / 27_13:54:50 info:获取资源组:emserver1 IPaddr :: 10.1.10.254 drbddisk :: r0 Filesystem :: / dev / drbd1 :: / shr :: ext4 nfs-kernel-server IPaddr [4759]:2012/11 / 27_13:54:50信息:资源已停止 ResourceManager [4732]:2012/11 / 27_13:54:50 info:运行/etc/ha.d/resource.d/IPaddr 10.1.10.254启动 IPaddr [4816]:2012/11 / 27_13:54:50信息:使用10.1.10.254的计算网格:eth0 IPaddr [4816]:2012/11 / 27_13:54:50信息:使用10.1.10.254的计算networking掩码:255.255.255.0 IPaddr [4816]:2012/11 / 27_13:54:50 INFO:eval ifconfig eth0:0 10.1.10.254 netmask 255.255.255.0 broadcast 10.1.10.255 IPaddr [4804]:2012/11 / 27_13:54:50信息:成功 ResourceManager [4732]:2012/11 / 27_13:54:50 info:运行/etc/ha.d/resource.d/drbddisk r0 start 文件系统[4965]:2012/11 / 27_13:54:50信息:资源已停止 ResourceManager [4732]:2012/11 / 27_13:54:50 info:运行/etc/ha.d/resource.d/Filesystem/ dev / drbd1 / shr ext4 start 文件系统[5039]:2012/11 / 27_13:54:50信息:在/ shr上运行/ dev / drbd1的启动 文件系统[5033]:2012/11 / 27_13:54:51信息:成功 ResourceManager [4732]:2012/11 / 27_13:54:51 info:运行/etc/init.d/nfs-kernel-server start 11月27 13:55:00 EMserver1心跳:[4586]:info:本地资源获取完成。 (没有) 11月27日13:55:00 EMserver1心跳:[4586]:info:本地资源转换完成。 11月27日13:57:46 EMserver1心跳:[4586]:info:心跳关机正在进行中。 (4586) 11月27日13:57:46 EMserver1心跳:[5286]:info:放弃所有HA资源。 ResourceManager [5301]:2012/11 / 27_13:57:46 info:释放资源组:emserver1 IPaddr :: 10.1.10.254 drbddisk :: r0 Filesystem :: / dev / drbd1 :: / shr :: ext4 nfs-kernel-server ResourceManager [5301]:2012/11 / 27_13:57:46 info:运行/etc/init.d/nfs-kernel-server stop ResourceManager [5301]:2012/11 / 27_13:57:46 info:运行/etc/ha.d/resource.d/Filesystem/ dev / drbd1 / shr ext4 stop 文件系统[5372]:2012/11 / 27_13:57:46信息:在/ shr上运行/ dev / drbd1的stop 文件系统[5372]:2012/11 / 27_13:57:47信息:尝试卸载/ shr 文件系统[5372]:2012/11 / 27_13:57:47 INFO:unmounted / shr successfully 文件系统[5366]:2012/11 / 27_13:57:47信息:成功 ResourceManager [5301]:2012/11 / 27_13:57:47 info:运行/etc/ha.d/resource.d/drbddisk r0 stop ResourceManager [5301]:2012/11 / 27_13:57:47 info:运行/etc/ha.d/resource.d/IPaddr 10.1.10.254 stop IPaddr [5509]:2012/11 / 27_13:57:47 INFO:ifconfig eth0:0 down IPaddr [5497]:2012/11 / 27_13:57:47信息:成功 11月27日13:57:47 EMserver1心跳:[5286]:info:放弃所有HA资源。 11月27日13:57:48 EMserver1心跳:[4586]:信息:杀死/ usr / lib /心跳/ ipfail进程组4603与信号15 11月27日13:57:49 EMserver1心跳:[4586]:信息:杀死信号15的HBFIFO进程4589 11月27日13:57:49 EMserver1心跳:[4586]:信息:杀死HBWRITE进程4590与信号15 11月27日13:57:49 EMserver1心跳:[4586]:info:用信号15杀死HBREAD进程4591 11月27日13:57:49 EMserver1心跳:[4586]:信息:杀死HBWRITE进程4592与信号15 11月27日13:57:49 EMserver1心跳:[4586]:信息:用信号15杀死HBREAD进程4593 11月27日13:57:49 EMserver1心跳:[4586]:信息:杀死HBWRITE进程4594与信号15 11月27日13:57:49 EMserver1心跳:[4586]:info:用信号15杀死HBREAD进程4595 11月27日13:57:49 EMserver1心跳:[4586]:信息:杀死HBWRITE进程4596与信号15 11月27日13:57:49 EMserver1心跳:[4586]:info:用信号15查杀HBREAD进程4597 11月27日13:57:49 EMserver1心跳:[4586]:信息:杀死HBWRITE进程4598与信号15 11月27日13:57:49 EMserver1心跳:[4586]:信息:用信号15杀死HBREAD进程4599 11月27日13:57:49 EMserver1心跳:[4586]:信息:核心进程4589退出。 剩下11个 11月27日13:57:49 EMserver1心跳:[4586]:info:核心进程4596退出。 剩下10个 11月27日13:57:49 EMserver1心跳:[4586]:info:核心进程4598退出。 剩下9个 11月27日13:57:49 EMserver1心跳:[4586]:info:退出核心进程4590。 剩下8个 11月27日13:57:49 EMserver1心跳:[4586]:info:核心进程4595退出。 剩下7个 11月27日13:57:49 EMserver1心跳:[4586]:info:核心进程4591退出。 剩下6个 11月27日13:57:49 EMserver1心跳:[4586]:info:核心进程4592退出。 剩下5个 11月27日13:57:49 EMserver1心跳:[4586]:info:核心进程4593退出。 剩下4个 11月27日13:57:49 EMserver1心跳:[4586]:info:退出核心进程4597。 剩下3个 11月27日13:57:49 EMserver1心跳:[4586]:info:核心进程4594退出。 剩下2个 11月27日13:57:49 EMserver1心跳:[4586]:info:核心进程4599退出。 剩下1个 11月27日13:57:49 EMserver1心跳:[4586]:info:emserver1心跳closures完成。
这里还有一些来自日志
ResourceManager [2576]:2012/11 / 28_16:32:42 info:获取资源组:emserver1 IPaddr :: 10.1.10.254 drbddisk :: r0 Filesystem :: / dev / drbd1 :: / shr :: ext4 nfs-kernel-server IPaddr [2602]:2012/11 / 28_16:32:42信息:正常运行 文件系统[2653]:2012/11 / 28_16:32:43信息:运行正常 11月28日16:32:52 EMserver1心跳:[1695]:警告:节点emserver2:已经死了 11月28日16:32:52 EMserver1心跳:[1695]:info:死亡节点emserver2放弃了资源。 11月28日16:32:52 EMserver1 ipfail:[1807]:info:状态更新:节点emserver2现在具有状态 11月28日16:32:52 EMserver1心跳:[1695]:信息:链接emserver2:eth1死亡。 11月28日16:32:53 EMserver1 ipfail:[1807]:info:NS:我们还活着! 11月28日16:32:53 EMserver1 ipfail:[1807]:info:链接状态更新:链接emserver2 / eth1现在具有状态已停用 11月28日16:32:55 EMserver1 ipfail:[1807]:info:向另一侧请求ping节点计数。 11月28日16:32:55 EMserver1 ipfail:[1807]:信息:检查ping节点的远程计数。 11月28日16:32:57 EMserver1心跳:[1695]:info:心跳关机正在进行中。 (1695) 11月28日16:32:57 EMserver1心跳:[2734]:info:放弃所有HA资源。 ResourceManager [2751]:2012/11 / 28_16:32:57 info:释放资源组:emserver1 IPaddr :: 10.1.10.254 drbddisk :: r0 Filesystem :: / dev / drbd1 :: / shr :: ext4 nfs-kernel-server ResourceManager [2751]:2012/11 / 28_16:32:57 info:运行/etc/init.d/nfs-kernel-server stop ResourceManager [2751]:2012/11 / 28_16:32:57 info:运行/etc/ha.d/resource.d/Filesystem / dev / drbd1 / shr ext4 stop 文件系统[2829]:2012/11 / 28_16:32:57信息:在/ shr上为/ dev / drbd1运行stop 文件系统[2829]:2012/11 / 28_16:32:57信息:尝试卸载/ shr 文件系统[2829]:2012/11 / 28_16:32:58 INFO:unmounted / shr successfully 文件系统[2823]:2012/11 / 28_16:32:58信息:成功 ResourceManager [2751]:2012/11 / 28_16:32:58 info:运行/etc/ha.d/resource.d/drbddisk r0 stop ResourceManager [2751]:2012/11 / 28_16:32:58 info:运行/etc/ha.d/resource.d/IPaddr 10.1.10.254 stop IPaddr [2971]:2012/11 / 28_16:32:58 INFO:ifconfig eth0:down IPaddr [2958]:2012/11 / 28_16:32:58信息:成功 11月28日16:32:58 EMserver1心跳:[2734]:info:放弃所有HA资源。 11月28日16:32:59 EMserver1心跳:[1695]:信息:杀死/ usr / lib /心跳/ ipfail进程组1807与信号15 11月28日16:33:01 EMserver1心跳:[1695]:信息:杀死HBFIFO进程1777信号15 11月28日16:33:01 EMserver1心跳:[1695]:信息:杀死HBWRITE进程1778信号15 11月28日16:33:01 EMserver1心跳:[1695]:info:用信号15杀死HBREAD进程1779 11月28日16:33:01 EMserver1心跳:[1695]:信息:杀死HBWRITE进程1780信号15 11月28日16:33:01 EMserver1心跳:[1695]:信息:杀死信号15的HBREAD进程1781 11月28日16:33:01 EMserver1心跳:[1695]:信息:杀死HBWRITE进程1782信号15 11月28日16:33:01 EMserver1心跳:[1695]:info:用信号15杀死HBREAD进程1783 11月28日16:33:01 EMserver1心跳:[1695]:信息:杀死HBWRITE进程1784信号15 11月28日16:33:01 EMserver1心跳:[1695]:信息:杀死信号15的HBREAD进程1785 11月28日16:33:01 EMserver1心跳:[1695]:信息:杀死HBWRITE进程1786信号15 11月28日16:33:01 EMserver1心跳:[1695]:信息:杀死HBREAD进程1787与信号15 11月28日16:33:01 EMserver1心跳:[1695]:信息:核心进程1778退出。 剩下11个 11月28日16:33:01 EMserver1心跳:[1695]:信息:核心进程1779退出。 剩下10个 11月28日16:33:01 EMserver1心跳:[1695]:信息:核心进程1780退出。 剩下9个 11月28日16:33:01 EMserver1心跳:[1695]:信息:核心进程1781退出。 剩下8个 11月28日16:33:01 EMserver1心跳:[1695]:信息:核心进程1782退出。 剩下7个 11月28日16:33:01 EMserver1心跳:[1695]:信息:核心进程1783退出。 剩下6个 11月28日16:33:01 EMserver1心跳:[1695]:信息:核心进程1784退出。 剩下5个 11月28日16:33:01 EMserver1心跳:[1695]:信息:核心进程1785退出。 剩下4个 11月28日16:33:01 EMserver1心跳:[1695]:信息:核心进程1786退出。 剩下3个 11月28日16:33:01 EMserver1心跳:[1695]:信息:核心进程1787退出。 剩下2个 11月28日16:33:01 EMserver1心跳:[1695]:信息:核心进程1777退出。 剩下1个 11月28日16:33:01 EMserver1心跳:[1695]:info:emserver1心跳closures完成。
如果我现在重新启动心跳…资源心跳控制将启动罚款….请帮助!
正如评论中的命令是我最初的答复forms。
如果您运行的是最新的Ubuntu版本(10.04或更新版本),则应该完全抛弃Heartbeat,而使用Corosync和Pacemaker。 虽然这不是你的问题的答案或解决scheme,但正如你所看到的那样,你的问题就会消失。
关于Pacemaker的一篇很棒的介绍性文章是在Linux杂志上发表的, Scratch的Clusters是让Corosync和Pacemaker运行起来的一个很好的起点。 对于Ubuntu 10.04,请使用官方稳定的backported群集堆栈的PPA: https : //launchpad.net/~ubuntu-ha-maintainers/+archive/ppa
旧的Heartbeat堆栈有许多概念上的缺陷,已经被废弃了很长时间,现在不值得尝试debugging如果今天使用它会出现的问题。 Corosync和Pacemaker是由于这个原因而创build的,他们的工作比Heartbeat更好,甚至不是资源pipe理者。