如何避免VMware在使用Veeam进行成像时让客户眩晕

最近我们的MySQL服务器已经“走开”(即客户端连接中断)。 经过数周的尝试不同的事情(如调整数据包大小),我们发现它是我们的Veeam映像备份,它使用VMWare API来快照和复制vmdks等。

我们使用ESXi 5和Centos 6.4 guest,运行(几乎)MySQL 5.1.69-log。

似乎引发此问题的更改将物理磁盘大小从大约100增加到300GB,并调整来宾文件系统的大小以使用大部分新容量。 自从磁盘增加以来,我们在备份过程中遇到了这些问题 – 大概是由于执行快照相关function所需的时间增加。

新磁盘是RAID1中的2x300GB Gen8 15k SAS。 旧的磁盘将只是相似的更小。 Veeam过程的目标是通过1Gb专用以太网(即从一般办公室stream量分离)的ReadyNAS。

主机是HP DL380P塔:

==server spec (BASE CHASSIS)== SERIES DL380P GEN8 PROCESSOR TYPE Intel Xeon E5-2609 v2 (2.5GHz/4-core/10MB/6.4GT-s QPI/80W) NUMBER OF PROCESSORS 2 MEMORY 80GB INTERNAL DRIVE BAYS 8 SFF HDD Bays COMPATIBLE HDD SFF SAS/SATA HARD DISK CONTROLLER SMART ARRAY P420I/ZERO MEMORY CONTROLLER (RAID 0/1/1+0) 

我的“IT人”已经对Veeamconfiguration进行了一些调整,包括跳过空白块(大部分新磁盘都是空的),但这似乎没有任何帮助。

Veeam也没有太多的帮助,说“重新启动目标”或“我们只是使用VMWare APIs”。

我相信这个“​​眩晕”意味着虚拟机只会冻结一段时间(大约30秒),然后正常继续。

VMWare.log示例:

 Line 7411: 2016-06-08T17:11:44.910Z| vcpu-0| I120: Checkpoint_Unstun: vm stopped for 21068381 us Line 7556: 2016-06-08T17:22:24.608Z| vcpu-0| I120: Checkpoint_Unstun: vm stopped for 19819322 us Line 7700: 2016-06-08T17:22:30.140Z| vcpu-0| I120: Checkpoint_Unstun: vm stopped for 1130044 us Line 7929: 2016-06-08T17:23:08.616Z| vcpu-0| I120: Checkpoint_Unstun: vm stopped for 30197618 us 

所以我的问题有两个可能的解决办法

  1. 有没有办法来防止或减less在成像过程中的VMWare客人“惊人”。

  2. 有没有办法减less昏迷对MySQL或虚拟networking或Centos的影响。

这是一台运行智能arraysRAID控制器的HP ProLiant服务器,没有Flash支持的caching模块。

因此,您没有写入caching( 或读取caching ),虚拟机快照等操作将受到影响。 你已经经历了这个效果。 目前的configuration不适合大多数工作负载,特别是虚拟化。

你最好的select是简单地购买caching模块和电池/ FBWC; HP部件631681-B21,631679-B21或631069-B21。

这将加速性能并消除您所看到的问题。

另请参阅:

HP DL360p上的FBWC和零内存(ZM)RAID控制器

BBWC:理论上是一个好主意,但有一个曾经保存过你的数据?

RAID卡上的内存模块需要什么?

从研究中回答我自己的问题。 (如果其中一种方法真正起作用,并且在别人的build议之前,我将只接受我自己的答案。)

这篇(旧)文章什么是快照的危险和如何避免? 提到了一些可能的原因和三个预防措施。 有趣的是,它提到了这个问题同样如何影响MS SQL Server和其他服务器产品。

如果您不想晕死/暂停虚拟机,则可以将snapshot.maxIterations设置为20(或更高)。 这意味着vSphere将进行更多尝试(迭代)来提交快照文件。 本知识库文章中的更多信息。

然后,继续描述这种方法的风险和不足。

其次它表明:

或者,您可以将snapshot.maxConsolidateTime设置为60秒。 这意味着您可以接受虚拟机的暂停60秒来进行同步合并。 这通常比等待快照文件变得如此之大是更好的select,虚拟机需要在更长的时间内被震惊。

但我不知道“眩晕”和“停顿”的区别。

最后:

ESXi 4.1有一个更新,其中添加了需要添加到VMX文件的参数snapshot.asyncConsolidate.forceSync =“FALSE”。 此设置禁用同步合并,虚拟机将永远不会被震惊。 更多信息在这KB。

它没有描述这些解决scheme的潜在缺陷,但我认为有一些,否则他们是默认的。

我还没有检查这些参数或解决scheme在v5中是否仍然相关。

更新:Veeambuild议我们进行上面提到的与ESXi的v4和v5相关的知识库中列出的更改。 在删除快照时,虚拟机超过30分钟无响应(2039754)

UPDATE2:我们今晚进行这些configuration更改并重新启动主机,因为它比等待caching更便宜,更快。 然后我们会监控几天,看是否能为我们解决这个问题。