我有一个主动 – 被动的心跳集群与Apache,MySQL,ActiveMQ和DRBD。 今天,我想在辅助节点(node04)上执行硬件维护,所以在closures之前我停止了心跳服务。 然后,主节点(node03)从次节点(node04)收到关机通知。 此日志logging来自主节点:node03 heartbeat[4458]: 2010/03/08_08:52:56 info: Received shutdown notice from 'node04.companydomain.nl'. heartbeat[4458]: 2010/03/08_08:52:56 info: Resources being acquired from node04.companydomain.nl. harc[27522]: 2010/03/08_08:52:56 info: Running /etc/ha.d/rc.d/status status heartbeat[27523]: 2010/03/08_08:52:56 info: Local Resource acquisition completed. mach_down[27567]: 2010/03/08_08:52:56 info: /usr/share/heartbeat/mach_down: nice_failback: foreign resources acquired mach_down[27567]: 2010/03/08_08:52:56 info: mach_down takeover complete for node node04.companydomain.nl. heartbeat[4458]: 2010/03/08_08:52:56 info: […]
我们的NFS共享文件系统正在locking。 请随时提出您认为相关的任何问题。 🙂 当时在“磁盘睡眠”状态下有很多进程,而且我们的机器上的负载平均值是天上的。 这些机器对SSH有反应,但是我们的大多数网站(apache + mod_php)只是挂起,就像我们的电子邮件系统(exim + dovecot)一样。 任何不需要写入文件系统的网站都可以继续运行。 负载平均值继续上升,直到达到某种超时值,但至less需要10-15分钟。 我已经看到加载平均值超过800,但机器仍然对不需要写入共享文件系统的操作做出响应。 我一直在调查各种各样的选项,这些选项都变成了红鲱鱼:nagios,proftpd,bind,cron任务。 我在文件服务器的系统日志中看到这些消息: 七月30 09:37:17 fs0内核:[1810036.560046] statd:服务器本地主机没有响应,超时 7月30日09:37:17 fs0内核:[1810036.560053] nsm_mon_unmon:rpc失败,状态= -5 7月30日09:37:17 fs0内核:[1810036.560064] lockd:无法监视node2 七月30 09:38:22 fs0内核:[1810101.384027] statd:服务器本地没有响应,超时 7月30日09:38:22 fs0内核:[1810101.384033] nsm_mon_unmon:rpc失败,状态= -5 7月30日09:38:22 fs0内核:[1810101.384044]locking:无法监视node0 涉及的软件: VMWare,Debian lenny(64位),古代红帽(32位)(我相信是第七版),Debian etch(32位) NFS,apache2 + mod_php,exim,dovecot,bind,amanda,proftpd,nagios,cacti,drbd,heartbeat,keepalived,LVS,cron,ssmtp,NIS,svn,puppet,memcache,mysql,postgres Joomla!,Magento,Typo3,Midgard,Symfony,自定义的PHP应用程序
我有报告说某个文件系统上的I / O,即/ srv / data1,是间歇性的。 我自己也看到了,这是真的。 例如,我运行'ls'/ srv / data1,输出需要30多秒才能出现。 我再次运行,这一次,没有延迟。 可怕和可怕的时期是短暂的,周期相当迅速。 / srv / data1是/ dev / drbd1上的500GB OCFS2,它依次位于systemA:/ dev / md3和systemB:/ dev / md3上。 A和B是运行SLES11的完全相同的Dell R610。 在A和B上,/ dev / md3是/ dev / sdc1和/ dev / sdd1的镜像。 这些都是500 GB的SATA驱动器没有别的。 硬盘控制器是戴尔的PERC 6 / iR。 这是一个繁忙,繁忙的主Subversion服务器,延迟打破了一些使远程代理服务器与主服务器保持同步的进程。 这给开发团队带来麻烦。 有什么想法吗? 谢谢,迈克
有没有人有经验configurationdrbd心跳之间2虚拟Linux机器(VMWare基础设施)? 我遇到的问题是心跳喜欢多个数据path来查看其对等节点。 例如,它喜欢与对等体build立networking连接,可能是一个网关连接到对等体,从而提高了检测到对等体中断时可能性降低的可能性,而不是由于networking拥塞或一些东西。 然而,在虚拟机上,串口和以太网端口(以及所有其他端口)是虚拟的 – 确实,只有一个数据path(正确的)? (我知道VMWare支持设备之间的物理串行电缆,但是我们的vm是远程托pipe的,而物理电缆会阻止主机迁移,这是不可接受的。) 在我们的例子中,即使它们在同一主机上运行,我们也会在心跳对等体之间看到超时。 如何在虚拟机上运行时将drbd / heartbeatconfiguration为更加健壮
我在CentOS 5.4 x86_64上运行的HA Cluster有问题。 使用的软件: DRBD 8(kmod-drbd–xen-8.0.16-5.el5_3.x86_64 / drbd-8.0.16-5.el5.centos) 心跳 LVM2 Xen 3.1.2 我的DRBDconfiguration同步一个逻辑卷。 当我首先在逻辑卷上创buildDRBD的元数据时,它开始同步并正常工作。 我遇到的问题是它不会在第一次同步之后更新数据,所以基本上你会得到一个副本,而不是停止。 当我废弃逻辑卷时,重新创build它并为DRBD初始化元数据,它只是再次开始同步(但只是一次)。 它给不出同步错误或任何东西,猫/ proc / drbd显示我2健康的UpToDate节点。 我尝试了同步物理卷,这导致Xen无法启动任何虚拟机(安装在特权域中)。 它似乎没有给我任何增量更新,但没有任何错误是如此。 编辑:// 我已经尝试了主动/被动和主动/主动设置。 我知道它没有被添加到configuration了drbd的LVM上运行的ext3文件系统的示例文件同步。 感谢您的帮助到目前为止,附上我的drbdconfiguration; global { usage-count no; } resource repdata { protocol C; startup { wfc-timeout 0; degr-wfc-timeout 120; } disk { on-io-error detach; } # or panic, … net { […]
我已经在两台机器之间build立了drbd复制,并使用drbd块设备作为kvm机器的存储。 一切运行良好。 不过,我怀疑这个设置是否可以使用。 从我迄今为止在互联网上阅读的内容来看,人们倾向于使用drbd-> ocfs2-> qcow2_file作为其虚拟机的存储。
我们正在运行一个堆叠的四节点DRBD设置,如下所示: A –> B | | vv CD 这意味着在这四个服务器上运行三个DRBD资源。 服务器A和B是运行虚拟机的Xen主机,而服务器C和D则用于备份。 A和C在同一个数据中心 从服务器A到服务器C,在第一个数据中心,使用协议B. 从服务器B到服务器D,在第二个数据中心,使用协议B. 从服务器A到服务器B,不同的数据中心,使用协议A堆叠资源 第一个问题:启动一个堆叠的资源 我们还没有在这个设置上运行任何重要的数据 – 我们仍然确保它首先工作。 这意味着模拟停电,networking中断等,并看到我们需要恢复的步骤。 当我们从服务器A中取出电源时,两个资源都会closures; 它试图在下次启动时使它们恢复正常。 但是,它只能成功地提出下一级的资源,A-> C。 堆叠的资源A-> B甚至没有尝试连接,大概是因为它找不到设备,直到它连接到较低级别的主设备。 因此,如果出现任何问题,我们需要手动login并启动资源,然后在其上启动虚拟机。 第二个问题:设置堆叠资源的主要问题 我们的低级资源被configuration为正确的被认为是主要的资源: resource test-AC { on A { … } on C { … } startup { become-primary-on A; } } 但是我看不出有什么办法可以对堆叠的资源做同样的事情,因为下面这个不是一个有效的configuration: resource test-AB { stacked-on-top-of test-AC { … […]
我们有一个坐在XFS和drbd之上的NFS,它给我们带来了一个糟糕的性能(如iostat / iotop所示,大约1MB / s的读/写)xfs卷的属性是: meta-data=/dev/drbd0 isize=256 agcount=4, agsize=52427198 blks = sectsz=512 attr=2 data = bsize=4096 blocks=209708791, imaxpct=25 = sunit=0 swidth=0 blks naming =version 2 bsize=4096 ascii-ci=0 log =internal bsize=4096 blocks=16384, version=2 = sectsz=512 sunit=0 blks, lazy-count=1 realtime =none extsz=4096 blocks=0, rtextents=0 我们有一个带有SAS1068E控制器和2个WD 1TB磁盘的戴尔盒(Dell Box)。该卷当前安装的属性为: rw,noatime,nodiratime,attr2,nobarrier,logbufs=8,noquota 文件系统包含大量小文件,大小约为50-100k,分布在目录树中。 我们尝试使用ReadAhead值(当前禁用)和xfs挂载选项,但目前为止没有任何成功。 我们在iotop中注意到kdmflush是导致iowait的任何build议来提高此安装程序的性能?
有一个Xen群集,我真的很喜欢这个设置。 它由2个节点组成(我们称它们为1和2)。 每个节点有2个未被搜查的驱动器(A和B)。 A1通过DRBD复制到A2,B2复制到B1。 当机器1停机时,虚拟机在机器2上出现,反之亦然(只有1/2性能) 我对此感到高兴。 这是便宜,灵活和健壮,但它不是完美的…它不让我rest。 也许你可以帮助我做得更好(或者有一个比这更好的替代架构…我不反对VMWare或其他工作) 这是我的问题: Xen没有像VMWare那样方便的转换器。 还是呢? (免责声明:我爱上了VMWare转换器) 对于大多数IT人员来说,DRBD仍然是个未知数(甚至可怕?)。 我不想成为唯一知道如何工作的专家。 我想要的东西就像VMware制造的一样虚弱。 DRBD的一些简单的Web前端可能? 更好的是,有没有这样的设备(freeNAS,monowall和朋友)还是某种即插即用的产品? 如果这意味着我不再自己动手并获得某种供应商支持,我不介意多付钱。 与上面的问题有关:上次我有一个这样的系统是几年前,我总觉得我在stream血的边缘,玩的东西太多了。 这很有趣。 VMWare没有这样坚实的企业感觉。 这一次,我不想要任何“乐趣”:-)我只是想让它工作,永远不会停止工作。 也许这是因为我还在使用Xen 2.0和DRBD 0.7,从那以后肯定有很多变化,但是有一些事情告诉我,我仍然在进行大量的自定义内核编译和挑战性的故障。 这一次,我想不惜一切代价避免这种情况。 我是通过一个1Gb以太网运行的。 记住以上几点的最好方法是双倍或三倍? 也许我可以总结上述的所有。 我该如何歪曲和愚弄这个Xen群集架构呢? 谢谢
所以我已经在LVM上设置了RAID1,然后使用LVM作为DRBD的物理磁盘。 我打算将DRBD安装到/ mnt / data,然后分别将apache2,mysql和ftp的所有configuration和数据文件移动到/ mnt / data。 这个设置好吗? 推荐或反对? 思想? 第一次设置这个。 提前致谢。 编辑:我可以使用DRBD作为除/ boot之外的整个操作系统的基础,只需要完成它?