VMwarelockingCPU峰值

CPU使用率峰值之后,VMWare ESXi 5.5的主机服务器对DRAC,networking和群集成员身份没有响应。

主机是一个刀片模块,是Dell M1000e机箱中的Dell PowerEdge M820,带有4个Xeon E5-4620和128 GB RAM,本地SSD位于RAID 6中。

所有的虚拟机都是Server 2008 R2。 有一个SQL服务器使用SSD RAID作为数据。 否则,虚拟机将被存储在一个10Gbit链接的QNAP上。

资源不过分承诺。

刀片模块或QNAP上没有logging或指示硬件故障。

服务器需要从M1000e DRAC进行冷重启才能重新生效。

这似乎是某种硬件locking硬件的VMWare故障,但日志预locking在启动前3个月就已经丢失了。

由于重新启动-VMWare和服务器硬件没有报告或指出任何问题。

有没有人经历过这样的事情? 任何想法,想法和build议?

这可能是Windows VM的问题。 你能告诉我们Windows VM正在使用哪个networking驱动程序? 英特尔e1000? 英特尔e1000e? VMware vmxnet3?

如果他们不使用VMware vmxnet3,则会遇到一个可怕的错误,它会在主机崩溃(PSOD)中出现。 请参阅相应的知识库文章#2059053

在Windows Server 2008 R2和Windows Server 2012虚拟机之间的networking活动繁忙之后,5.5 ESXi主机上出现了一个崩溃。

修复方法是迁移到vmxnet3驱动程序。 由于e1000 / e1000e是创buildWindows虚拟机时的默认设置,因此会让很多人感到厌烦。

请注意跟踪中的“e1000”引用… 在这里输入图像说明

在你的位置上,我会打开与戴尔票,并运行所有的诊断。 他们可能会指示你升级所有的固件到最新版本,如果你还没有。 这通常是一个好主意。

同样的问题,我也会为VMware打开一张票。

您可能遇到了操作系统错误或硬件故障。 或者,您可以简单地将此系统标记为“可能的问题”,然后等待它再次发生。

/编辑 – 或者你可以听Ed,和/或检查VMware KB。