我一直在CentOS 6.4上testing集群套件,并且它工作的很好,但是我今天注意到了( 8月8日,这个问题最初被问到 ),它不喜欢以前工作的configuration。 我尝试使用CCS从头开始重新创buildconfiguration,但是这给了validation错误。
8月21日编辑:
我现在已经从CentOS 6.4 x86_64最小安装完全重新安装了这个盒子,添加了下面的包和它们的依赖关系:
yum install bind-utils dhcp dos2unix man man-pages man-pages-overrides nano nmap ntp rsync tcpdump unix2dos vim-enhanced wget
和
yum install rgmanager ccs
以下命令全部起作用:
ccs -h ha-01 --createcluster test-ha ccs -h ha-01 --addnode ha-01 ccs -h ha-01 --addnode ha-02 ccs -h ha-01 --addresource ip address=10.1.1.3 monitor_link=1 ccs -h ha-01 --addresource ip address=10.1.1.4 monitor_link=1 ccs -h ha-01 --addresource ip address=10.110.0.3 monitor_link=1 ccs -h ha-01 --addresource ip address=10.110.8.3 monitor_link=1 ccs -h ha-01 --addservice routing-a autostart=1 recovery=restart ccs -h ha-01 --addservice routing-b autostart=1 recovery=restart ccs -h ha-01 --addsubservice routing-a ip ref=10.1.1.3 ccs -h ha-01 --addsubservice routing-a ip ref=10.110.0.3 ccs -h ha-01 --addsubservice routing-b ip ref=10.1.1.4 ccs -h ha-01 --addsubservice routing-b ip ref=10.110.8.3
并导致以下configuration:
<?xml version="1.0"?> <cluster config_version="13" name="test-ha"> <fence_daemon/> <clusternodes> <clusternode name="ha-01" nodeid="1"/> <clusternode name="ha-02" nodeid="2"/> </clusternodes> <cman/> <fencedevices/> <rm> <failoverdomains/> <resources> <ip address="10.1.1.3" monitor_link="1"/> <ip address="10.1.1.4" monitor_link="1"/> <ip address="10.110.0.3" monitor_link="1"/> <ip address="10.110.8.3" monitor_link="1"/> </resources> <service autostart="1" name="routing-a" recovery="restart"> <ip ref="10.1.1.3"/> <ip ref="10.110.0.3"/> </service> <service autostart="1" name="routing-b" recovery="restart"> <ip ref="10.1.1.4"/> <ip ref="10.110.8.3"/> </service> </rm> </cluster>
但是,如果我使用ccs_config_validate或尝试启动cman服务,则会失败:
Relax-NG validity error : Extra element rm in interleave tempfile:10: element rm: Relax-NG validity error : Element cluster failed to validate content Configuration fails to validate
这是怎么回事? 这曾经工作!
我认为你错过了故障转移域,如果你想在红帽群集上定义一个服务,首先你需要定义一个failoverdomain,你可以使用failoverdomain作为许多服务或每个服务一个。
如果您需要有关故障切换域“man clurgmgrd”的更多信息,
故障转移域是服务可能绑定到的成员的有序子集。 下列
是控制不同configuration选项如何影响故障切换域行为的选项的语义列表:
在更多的yum update跳舞之后,它才重新开始工作。 我比较了新的和新的/var/lib/cluster/cluster.rng并且出人意料的是,有一个区别。 没有工作的系统上缺less<ip>元素的任何定义。
系统当前的版本是从同一个最小的CD安装的,我有一个一步一步的命令剪切和粘贴,在我开发的时候多次工作,然后失败了近两个月,现在开始再次工作。 我已经把这个盒子打了六十次了,所以我想这不是程序。
也许是红帽公司的一部分,但我不确定如何找出过去两个月内在这个文件中检查了哪些变化。