Articles of 心跳

高可用性/故障切换硬件连接

我正在学习有关集群和高可用性技术的知识,并且偶然发现了一篇关于使用一对服务器configurationnetworking的文章,使用DRBD进行复制和心跳以进行监视和故障切换。 文章指出,每台服务器上应该有2个网卡:eth0连接到LAN,两个eth1应通过交叉网线相互连接,如下图所示: 图片描述: 为了确保自动故障切换,心跳监视主服务器,如下所示:1.辅助服务器通过连接两台服务器的交叉电缆连续监视与主服务器的连接。 如果主服务器不可访问,则次服务器将采用主服务器的状态。 2.主服务器持续监视与高可用性networking设备(如路由器)的连接。 如果networking设备不可访问,则将控制权交给辅助服务器。 如果发生以下情况,故障切换会自动进行:1.主站的networking故障切换2.硬件故障,如电源,CPU,RAM等 这提出了以下问题: 如果次要/被动服务器上的心跳监视通过eth1监视主节点,如果eth1在任何服务器上出现故障,会发生什么情况? 在我看来,心跳会认为小学已经死了,并会激活中学。 这不会造成“裂脑”的状况吗? 由于主服务器仍然通过eth0连接到局域网并工作,所以它只是心跳/复制链路(eth1)被破坏了。 那么现在我们同时有两台活动的服务器? 我仍然在理解这个概念,请原谅我说废话。

Corosync 2.3.3:无法启用密码

我试图build立一台新的起搏器/ corosync 2台机器。 我以前用corosync1来使用它,但是在Ubuntu 14.04上,我已经有了corosync 2.3.3好了 – 我说了,并试图使用这个版本的软件。 当我准备一个戒指的基本configuration – 一切都很好。 节点是可见的,一切工作都很好。 我想要做的是启用节点之间的encryption。 文档不是很有帮助;或者我可能太愚蠢了;) 。 如何在corosync上启用密码? 在手册我们可以阅读: crypto_hash This specifies which HMAC authentication should be used to authenticate all messages. Valid values are none (no authentication), md5, sha1, sha256, sha384 and sha512. The default is sha1. crypto_cipher This specifies which cipher should be used to […]

与systemd一起使用心跳

我正在使用一个简单的心跳设置来处理与drbd共享的文件系统,并通过Apache提供服务。 我使用/etc/ha.d/haresources来定义ha资源,如下所示: server1 drbddisk::myfs \ Filesystem::/dev/drbd/by-res/myfs::/mnt/myfs::ext4::noatime \ IPaddr::10.0.0.254/24/eth0 apache2 这工作得很好,如果使用旧的debian sysvinit,但有systemd的种族问题,因为停止apache是​​asynchronous完成,所以当心跳发出“/etc/init.d/apache2停止”scrypt而它很快返回时,apache2仍然可以活跃,因此FS的卸载失败。 我知道很多解决方法来解决这个问题,但我想知道是否有一个“干净”的方式,而不必恢复到sysvinit

linux心跳丢包

我正在使用Linux心跳保持ldirectord在我的web服务器上运行。 我的日志显示心跳警告:每隔几分钟就丢失一个数据包 ,而我无法弄清楚为什么。 我尝试在/etc/ha.d/ha.cf中更改DEADTIME和WARNTIME,但是这些似乎是为了处理延迟的数据包 ,而不是丢失的数据包 。 netstat -ai在我的界面上报告没有错误 任何想法是什么导致这些警告,我怎么能解决他们?

发生心跳故障转移后,arp失败

我有一个基于LVS的负载平衡器,一直工作得很好。 它使用心跳在两台服务器上运行以提供故障转移。 我已经添加了对系统的第二个IP范围的支持,但是当发生故障转移时,接pipe的服务器不能在这个第二范围内ARP任何IP,除非我删除并重新添加该范围的路由。 以下是有关故障转移后在活动负载平衡器上看到的更多详细信息: # arp foo1.example.com ether 00:20:ED:1A:0C:82 C eth0 foo2.example.com ether 00:1E:C9:B0:F6:FE C eth0 bar1.example.com (incomplete) eth0 # route Kernel IP routing table Destination Gateway Genmask Flags Metric Ref Use Iface 2.2.2.128 * 255.255.255.192 U 0 0 0 eth0 1.1.1.0 * 255.255.255.0 U 0 0 0 eth0 default 1.1.1.1 0.0.0.0 UG 100 0 […]

LinuxHA集群,需要关于共享存储的build议

我正在build立一个双节点的Heartbeat + Pacemaker集群,以在故障转移和实时迁移types环境中运行Xen domU。 存储是(EqualLogic)iSCSI SAN设备上的LUN。 我最初想用LVM来pipe理存储,每个domU都有它自己的根,并在专用于domU的VG上交换LV。 我将拥有另一个存储服务数据的VG(例如,Cacti监控,Nagios数据…)。 由于它是主动/被动群集,除了故障转移和实时迁移以外,在任何给定时间,只有一个节点可以访问任一VG上的LV。 从目前为止我收集的信息来看,您可以使用LVM进行故障切换,但不能实时迁移,因为在实时迁移的情况下,您有> = 2个节点同时访问数据,而LVM不支持集群。 现在,选项似乎是使用cLVM,或者是一个集群感知的文件系统,如OCFS2。 我在网上find的大部分信息似乎都是针对DRBR + OCFS2 + iSCSI + LVM + … + n。 我宁愿避免这种复杂性。 cLVM是一个可接受的环境解决scheme,还是在这个设置中需要OCFS2?

心跳没有采取其资源

所以我心跳安装,我跟着一个configuration指南,我从字面上改变了指南的知识产权,它不工作,因为它应该:(。 eth数字的原因明显不同。 我不认为这应该对资源处理有任何影响。 我使用uname -n作为节点名称。 我已经把他们的IP放在/ etc / hosts文件中,以便彼此了解。 日志中没有任何可疑的东西。 另外,Apache被设置为在任何可用的接口上侦听。 我无法ping通或无法访问共享资源。 有任何想法吗? 这里是我的两个服务器上运行心跳的configuration。 它们分别命名为loadb1(192.168.1.101)和loadb2(192.168.1.102)及其共享资源:192.168.1.100。 Loadb1的configuration是: ha.cf logfile /var/log/ha-log bcast eth0 keepalive 2 warntime 10 deadtime 30 initdead 120 udpport 694 udp eth0 auto_failback yes node loadb1 node loadb2 #uuidfrom nodename #respawn hacluster /usr/lib/heartbeat/ipfail 的haresources loadb1 IPaddr::192.168.1.100 httpd authkeys (设置为600) auth 2 2 crc Loadb2的configuration是: […]

replace命令hb_takeover

我最近在Ubuntu 10.04上安装了最新版本的DRBD,并且希望发布一个单步命令来testing故障转移,以certificate故障的简单性。 在以前的版本中,有/usr/lib/heartbeat/hb_takeover现在我必须降级主服务器,然后手动提升辅助服务器。 有没有我不知道的这个过程的一个新的一步命令?

Linux HA – 最佳心跳硬件解决scheme

大家好,我会问任何人什么是最好的第2层介质在Linux中的心跳,以及如何最好的configuration。 更确切地说,我一直在考虑为此专用的网卡,但后来我认为,如果交换机发生故障,那么我将失去大部分集群和STONITH'BUM'的心跳连接! 以后可能会失去我的工作:) 通过vif将心跳分配到每个节点的主要NIC上听起来是合理的,但不知道这是否是最好的select(至less交换机在一定程度上是冗余的)。 是否有可能通过保税界面使用心跳,这听起来是合理的? 你有任何其他技巧/解决scheme?

NFS导出垃圾邮件日志。 这是一个破碎的设置?

我有一台运行Ubuntu 10.04的NFS服务器,为OCFS2文件系统提供服务。 安装程序有点复杂,因为服务器安装了Heartbeat和Pacemaker以与另一台服务器组成群集。 无论如何,奇怪的事情: # tail -12 /var/log/messages Jul 17 17:15:45 ctserv01 exportfs[14870]: INFO: Directory /export/homes is exported to 172.16.54.0/24 (started). Jul 17 17:15:45 ctserv01 exportfs[14869]: INFO: Directory /export/proyectos is exported to 172.16.54.0/24 (started). Jul 17 17:15:45 ctserv01 exportfs[14871]: INFO: Directory /export is exported to 172.16.54.0/24 (started). Jul 17 17:16:15 ctserv01 exportfs[15960]: INFO: Directory /export/proyectos […]