ESXi :: vmxnet3 vNIC和Linux内核错误

一个远射，但我想在这里试一试（在VMware社区论坛上没有解决scheme）。

在具有vmxnet3 vNIC的Linux guest虚拟机（CentOS 5.7 64位）中，我们每天在主eth0，DMZ NIC上收到几百个内核错误，它处理大多数networking通信（eth1和eth2执行备份和其他非频繁的networking活动）。

所有3个网卡都有vmxnet3作为它们的适配器types，但内核错误只发生在eth0上，这是唯一公开曝光的NIC（通过思科ASA NAT'd公共IP）。

示例日志条目：

Nov 2 17:49:40 localhost kernel: eth0: tq error 0x80000000 Nov 2 17:49:40 localhost kernel: eth0: resetting Nov 2 17:49:40 localhost kernel: eth0: intr type 2, mode 0, 1 vectors allocated Nov 2 17:49:40 localhost kernel: eth0: NIC Link is Up 10000 Mbps

考虑到eth0昨天出现故障，并且必须是upup（尽pipe新的服务器已经连续2个星期没有问题了），条目是令人不安的。

在上午降级到vmxnet2，看看是否可以解决这个问题，但为了我自己和未来患者的这个问题，我会离开这里 – 每一个问题有一个解决scheme;-)

只是一些猜测。

您也可以尝试使用e1000驱动程序而不是vmxnet3。它的限制是1G MBits，但它可能是一个很好的备份testing。

想一想你在主机系统上当前的VMWare Tools级别吗？内核升级后，您可能需要重新安装VMWare Tools。

ESX主机本身是否存在实际的以太网h / w错误？

操作系统驱动程序/内核是否是最新的？

  Linux hostname 2.6.18-274.7.1.el5 #1 SMP Thu Oct 20 16:21:01 EDT 2011 x86_64 x86_64 x86_64 GNU/Linux

****更新2 ****

知识库补丁更新2确实有效，但是您必须禁用TSO（知识库说只有在esxi 4.1更新1或更低版本时才需要）。所以，好吧，它可以工作，但是在有4X千兆网卡和本地SCSI磁盘的主机中是否需要？可能不会…

****更新1 ****

ESXi 4.1的VMware发布更新2显然可以解决这个问题> esxi-update2

刚刚find它，开始营业的一天已经在这里; 明天会在早些时候尝试，并发回结果…

****原始****正如我所提到的，ESXi主机位于思科ASA之后。

受影响的Linux guest虚拟机使用一个启用了APF软件防火墙的plesk控制面板。已经closuresAPF，我认为软件防火墙不是罪魁祸首。原来，closuresAPF不刷新iptables规则集。

用chkconfig apf -off和voila重启虚拟机，eth0内核错误消失了;-)

很高兴find实际的原因（即我实际上喜欢APF启用，因为ASA没有硬件资源（有限的CPU /内存）来处理大的拒绝列表）。明天早上我会做更多的testing，看看我能否findAPF不喜欢的入站ASA NATstream量。

无论如何，在虚拟化服务器上花费了5K美元，利用最新的和最好的技术来certificate这个花费是合理的（即使实际上这个适度加载的主机在e1000和vmxnet3之间的性能增益可能是零）。

综上所述：vmxnet3 vNIC在运行CentOS 5.7 64位客户端的Dell R610主机上工作得很好。 TBD是为什么ASA + ESXi + APF不能很好地协同工作的原因