我有一个独立的ESXi 5.5.0 b2143827。 它运行在具有144GB内存的戴尔R710上。 它有大约20个虚拟机。
现在,我无法通过VMWare vSphere客户端或SSH进入控制台。 它就好像服务器不存在一样。 主机看似随机的时候会回来,我可以通过SSH和vSphere客户端进入主机,但是它将在未来的一段时间内再次离开networking。 我可以通过物理主机上的紧急控制台访问它( Alt+F1 )。
但是,所有虚拟机都处于活动状态并正在运行。 但是每天大概有10次,所有的虚拟机都会在15秒到5分钟之间掉线。 然后他们会回来就好,一切都在滴答滴答。
我做了以下几件事:
/sbin/services.sh restart – 这没有帮助的情况 Alt+F1 )上,我已经ping了networking上的另一个物理设备。 它根本不丢弃任何数据包。 tail -f /var/log/hostd.log ,看到没有什么不愉快的事情发生在那里 我不知该从哪里出发。 这个服务器在过去的2.5年里运行得非常完美。 VMWare曾经被安装在一个物理驱动器上,但是6个月前它被移到了SD卡上,所以我们可以重新configuration物理驱动器。
我build议您更新Dell PowerEdge服务器上的Broadcom NIC的固件。 除了特定于虚拟机的ping之外,您看到外部连接问题的事实也表明了网卡问题。
关于SDHC启动,我真的只提倡在vSphere群集的成员ESXi服务器上使用SD / USB启动,并且共享存储。 由于ESXi 下这些卡的故障模式 ,使用它们来引导独立系统没有任何优势。 查看ESXi的可安装模式和embedded式模式之间的区别。
经过3天的不间断的故障排除,我终于发现问题是…等待它…我们的思科ASA自嘲,用虚假stream量淹没networking。
因为我们正在运行非常基本的交换机,并且服务器环境是100%虚拟化的,所以我们没有注意到networking堆栈中的任何东西。
我在这里遭受的最大的红鲱鱼是从主机ping客户操作系统。 我原以为这是完全独立于物理网卡,但显然不是。
我最终通过镜像交换机上的pipe理端口和使用Wireshark观看stream量来查找问题,并且看到stream量离开源端口,但永远不会到达目的地。 因为我在networking内部看不到它,所以只花了我4个小时的时间来隔离ASA成为问题的根源。
从networking中删除ASA以来,一切都一帆风顺。
事实certificate,ASA并没有自行处理,有人创build了一个no-proxy-arp的强制NAT规则,因此它开始响应整个内部/ 24上的ARP请求。 删除该规则,并为公司启动添加它的人的屁股,我们现在有我们什么,为什么和谁。
这也解释了为什么主机专用networking不能按预期工作。 ASA正在响应ARP请求,因此主机不知道将其作为主机专用networking请求。