vCenter群集CPU使用率数据不准确

我们拥有相当规模的vSphere“资产”,其中80%的Windows / Linux服务器实现了虚拟化,跨越六个数据中心。 我面临的一个挑战是中长期的容量规划,以确保我能够获得足够的资金投入到年度资本支出预测中,以获得主机升级(通常是内存),更多主机(硬件和ESX许可证)或最坏情况下SAN扩展的资金。

无论如何,直到最近,我都非常愿意接受vCenter的性能统计数据,因为它真正代表了正在发生的事情。 在查看统计信息时,我通常在群集级别工作,因为每个群集中的主机都进行了相同的指定,升级等。

不过,我最近注意到有些事情让我感到厌烦了。 我的一个集群有200GHz的CPU“带宽”可用,这个组成如下:

5 hosts x 2 sockets-per-host x 6 cores-per-socket x 3.33GHz per-core = 199.8GHz 

这很好,vCenter正确报告此值。 但是,当您在vCenter中查看群集的CPU利用率,或者使用PowerCLI的Get-Stat cmdlet查看统计信息时,CPU利用率有时可能会超过300GHz。 由于利用率达到了150%(!),所以这会给我的计算带来麻烦。 现在,我做了A级math已经很长时间了,但是我看不出一个CPU如何被使用150%。

所以,我用VMware支持login了一个电话。 而且,可笑的是,他们说我需要购买vCenter Operations Manager(vCOPS)来做我正在做的事情。 那么,不,谢谢,如果我有一些准确的统计资料,我可以做我自己的决定支持(对不起,咆哮)。

所以我推动了一个解释,支持人员说,vCenter中的数据是基于使用平均值总和的“通用”计算。 那么,平均数据样本是相当正常的,完全可以接受的,但我仍然不明白如何超过100%。

所以,我一直在努力自己解决这个问题,而且我想知道Xeon的超线程或“turbo”特性是否会影响结果。 然而,“涡轮”升力仅为3.33GHz至3.6GHz,即8%。

任何线索?

这是vCenter Operations Manager 可以派上用场的地方。 不要打折它的用处……它可能是一个比你更好的DSS平台:)但是,与大多数VMware环境一样,由于遇到了CPU限制,你将耗尽你的RAM资源。 在我与其他大型集群的规划工作中,我会考虑RAM和存储需求,因为CPU不是一个限制因素。 这里使用了哪些版本的ESXi,vSphere和许可证层?

对于您的主机,它们听起来像3.33GHz Westmere X5680系统。 您可以select使用超线程或者closures运行。 听起来这里还有别的东西在玩。 在CPU达到150%的时候,其他服务器的重要性如何?

在这里输入图像说明

有一个可用的免费级别的vCenter Operations。 还有一个全function(60或90天)的评估 。 这对于查明基础架构中的实际瓶颈是非常有帮助的,即使用于正确大小的虚拟机并validation集群运行状况。

可能会对您造成影响的视图是“剩余时间”度量标准,用于计算特定资源耗尽之前的剩余时间量。

在这里输入图像说明

为了使用技术术语,我在这里打了起来。 事实certificate,就总的MHz而言,vCenter的数字确实包含了超线程。 但是,我的电子表格(使用PowerCLI创build的)没有提取“CPU线程数量”,因此只能查看套接字(以VMware的说法“套件”)和内核。 感谢上面的贡献。