我已经部署了四个Ubuntu 10.04服务器。 它们在一个集群场景中两两相连。 在双方我们有软件raid1磁盘,drbd8和OCFS2和一些kvm机器与qcow2磁盘上运行。
我遵循这个: 链接
corosync仅用于DRBD和OCFS,kvm机器是“手动”运行的
当它工作的时候很好:性能良好,I / O性能好,但是在特定时间,两个簇中的一个开始挂起。 然后,我们试着只打开一台服务器,并挂起相同的。 这似乎发生在一个虚拟机发生沉重的读取,即在rsyn备份期间。 当事实发生时,虚拟机不再可及,真正的服务器响应延迟很好,但没有屏幕和ssh可用。
我们所能做的只是强制关机(按住button)并重新启动,当它再次打开时,drbd正在重新同步。 所有的时间,我们看到这样的事实。
今天早上,在一个星期的一阵痛苦之后,另一个集群挂了,但它有不同的moteherboard,ram,kvm实例。 什么是类似的阅读rsyncscheme和西方数字RAID Edistion磁盘两侧。
有人可以给我一些解决这个问题的build议吗?
更新:我将qcow2中的所有映像转换为raw,并使用noatime和nodiratime从虚拟机中挂载文件系统。 我用的是rsync的ionice,但是今天早上当用户从samba共享中读取大量文件时,它又被挂起了。 现在我正在把虚拟机从ocfs2想象成ext3,但是这真的是一个失败……任何想法都是值得欢迎的。
听起来你需要尝试另一种存储scheme给我(虽然如果你使用RAW预先分配的磁盘与虚拟机,你会避免一些开销,只有当你使用快照,你真的需要qcow2)
虚拟机在没有集群的情况下运行稳定,只使用本地磁盘?
你有没有尝试使用ionice分配rsync进程更好的水平,所以它不会打破一切?
你用GFS而不是ocfs2testing过吗? 可能会变得更好,你有一个在你发布的链接指南descrption