ESXi独立版上的间歇性主机和VM连接

我有一个独立的ESXi 5.5.0 b2143827。 它运行在具有144GB内存的戴尔R710上。 它有大约20个虚拟机。

现在,我无法通过VMWare vSphere客户端或SSH进入控制台。 它就好像服务器不存在一样。 主机看似随机的时候会回来,我可以通过SSH和vSphere客户端进入主机,但是它将在未来的一段时间内再次离开networking。 我可以通过物理主机上的紧急控制台访问它( Alt+F1 )。

但是,所有虚拟机都处于活动状态并正在运行。 但是每天大概有10次,所有的虚拟机都会在15秒到5分钟之间掉线。 然后他们会回来就好,一切都在滴答滴答。

我做了以下几件事:

  • 这是在以前的版本,我更新到b2143827。 这没有什么区别
  • /sbin/services.sh restart – 这没有帮助的情况
  • 重新启动物理主机。 这没有什么区别。
  • 在物理控制台( Alt+F1 )上,我已经ping了networking上的另一个物理设备。 它根本不丢弃任何数据包。
  • 从物理控制台,我已经ping主机上的虚拟机。 它遭受了大约80%的损失
  • 从远程机器,我可以ping 0pipe理IP地址丢包率为0%
  • 从远程机器上,我可以ping主机上的虚拟机,并可以偶尔看到主机明显地出现在networking上
  • 我看了一会儿tail -f /var/log/hostd.log ,看到没有什么不愉快的事情发生在那里
  • 系统安装在SD卡上。 我已经closures了服务器,然后把卡插到另一张卡上,然后在新卡上启动。 同样的问题。
  • 尝试了不同的networking交换机
  • 戴尔更新pipe理器,并更新每一个固件到最新版本。

我不知该从哪里出发。 这个服务器在过去的2.5年里运行得非常完美。 VMWare曾经被安装在一个物理驱动器上,但是6个月前它被移到了SD卡上,所以我们可以重新configuration物理驱动器。

我build议您更新Dell PowerEdge服务器上的Broadcom NIC的固件。 除了特定于虚拟机的ping之外,您看到外部连接问题的事实也表明了网卡问题。

  • 你可以尝试另一个NIC设备? ( 这个主机有四个
  • 标准vSwitch有多less上行链路? ( 你应该有多个活的上行链路
  • 问题的可重复性如何?

关于SDHC启动,我真的只提倡在vSphere群集的成员ESXi服务器上使用SD / USB启动,并且共享存储。 由于ESXi 下这些卡的故障模式 ,使用它们来引导独立系统没有任何优势。 查看ESXi的可安装模式和embedded式模式之间的区别。

经过3天的不间断的故障排除,我终于发现问题是…等待它…我们的思科ASA自嘲,用虚假stream量淹没networking。

因为我们正在运行非常基本的交换机,并且服务器环境是100%虚拟化的,所以我们没有注意到networking堆栈中的任何东西。

我在这里遭受的最大的红鲱鱼是从主机ping客户操作系统。 我原以为这是完全独立于物理网卡,但显然不是。

我最终通过镜像交换机上的pipe理端口和使用Wireshark观看stream量来查找问题,并且看到stream量离开源端口,但永远不会到达目的地。 因为我在networking内部看不到它,所以只花了我4个小时的时间来隔离ASA成为问题的根源。

从networking中删除ASA以来,一切都一帆风顺。


事实certificate,ASA并没有自行处理,有人创build了一个no-proxy-arp的强制NAT规则,因此它开始响应整个内部/ 24上的ARP请求。 删除该规则,并为公司启动添加它的人的屁股,我们现在有我们什么,为什么和谁。

这也解释了为什么主机专用networking不能按预期工作。 ASA正在响应ARP请求,因此主机不知道将其作为主机专用networking请求。