无法杀死VMware VM

在戴尔R630服务器上运行的ESXi 6.0U2群集中,我遇到了一个非常顽固的虚拟机(2008R2,VMware工具稍微过时,5.5U3a版本)。 从外面看,虚拟机在一段时间后变得没有反应 – 可能是一天,可能是一周 – 并且不再响应ping,连接请求等(它运行一个工业应用程序和一些MSSQL)。 但是,当群集运行5.5U3a时,已经可以观察到这种行为。

所以,我尝试通过webclient或胖客户端来重启虚拟机。 什么都没发生。 就像几个小时 下一步升级步骤:

esxcli vm process kill -w <worldID> -t soft 

没有反应,没有变化。 跳过 – 很难,直接去

 esxcli vm process kill -w <worldID> -t force 

没有回应。 虚拟机一直在反应迟钝,但世界却不肯被杀死。 也没有错误信息。 用VM重启主机是最后的手段。

我怎样才能找出这个非常奇怪的行为的根源呢?

我怎样才能找出这个非常奇怪的行为的根源呢?

科学的方法是你的朋友。

  1. 定义你想要解决的问题。 看起来你有2个(可能是相互关联的)问题。 虚拟机变得没有响应,ESXi不能杀死它。

  2. 收集资料。 查看日志,你的监控等相关信息。

  3. 分析数据。

  4. 根据您的分析进行更改。

  5. validation更改是否有效。 如果他们不回到2或3并收集更多数据/重新分析。

  6. logging你的发现。

在使用ps | grep vmx确定正确的过程之后 ps | grep vmx ,你可以通过kill -9 <pid>突然终止它

要非常小心地select(并杀死)正确的过程。 欲了解更多信息,请看这里

如果没有任何工作,根据VmWare自己的文档, 你必须重新启动ESX主机