一个远射,但我想在这里试一试(在VMware社区论坛上没有解决scheme)。
在具有vmxnet3 vNIC的Linux guest虚拟机(CentOS 5.7 64位)中,我们每天在主eth0,DMZ NIC上收到几百个内核错误,它处理大多数networking通信(eth1和eth2执行备份和其他非频繁的networking活动)。
所有3个网卡都有vmxnet3作为它们的适配器types,但内核错误只发生在eth0上,这是唯一公开曝光的NIC(通过思科ASA NAT'd公共IP)。
示例日志条目:
Nov 2 17:49:40 localhost kernel: eth0: tq error 0x80000000 Nov 2 17:49:40 localhost kernel: eth0: resetting Nov 2 17:49:40 localhost kernel: eth0: intr type 2, mode 0, 1 vectors allocated Nov 2 17:49:40 localhost kernel: eth0: NIC Link is Up 10000 Mbps
考虑到eth0昨天出现故障,并且必须是upup(尽pipe新的服务器已经连续2个星期没有问题了),条目是令人不安的。
在上午降级到vmxnet2,看看是否可以解决这个问题,但为了我自己和未来患者的这个问题,我会离开这里 – 每一个问题有一个解决scheme;-)
只是一些猜测。
您也可以尝试使用e1000驱动程序而不是vmxnet3。 它的限制是1G MBits,但它可能是一个很好的备份testing。
想一想你在主机系统上当前的VMWare Tools级别吗? 内核升级后,您可能需要重新安装VMWare Tools。
ESX主机本身是否存在实际的以太网h / w错误?
操作系统驱动程序/内核是否是最新的?
Linux hostname 2.6.18-274.7.1.el5 #1 SMP Thu Oct 20 16:21:01 EDT 2011 x86_64 x86_64 x86_64 GNU/Linux
****更新2 ****
知识库补丁更新2确实有效,但是您必须禁用TSO(知识库说只有在esxi 4.1更新1或更低版本时才需要)。 所以,好吧,它可以工作,但是在有4X千兆网卡和本地SCSI磁盘的主机中是否需要? 可能不会…
****更新1 ****
ESXi 4.1的VMware发布更新2显然可以解决这个问题> esxi-update2
刚刚find它,开始营业的一天已经在这里; 明天会在早些时候尝试,并发回结果…
****原始****正如我所提到的,ESXi主机位于思科ASA之后。
受影响的Linux guest虚拟机使用一个启用了APF软件防火墙的plesk控制面板。 已经closuresAPF,我认为软件防火墙不是罪魁祸首。 原来,closuresAPF不刷新iptables规则集。
用chkconfig apf -off和voila重启虚拟机,eth0内核错误消失了;-)
很高兴find实际的原因(即我实际上喜欢APF启用,因为ASA没有硬件资源(有限的CPU /内存)来处理大的拒绝列表)。 明天早上我会做更多的testing,看看我能否findAPF不喜欢的入站ASA NATstream量。
无论如何,在虚拟化服务器上花费了5K美元,利用最新的和最好的技术来certificate这个花费是合理的(即使实际上这个适度加载的主机在e1000和vmxnet3之间的性能增益可能是零)。
综上所述:vmxnet3 vNIC在运行CentOS 5.7 64位客户端的Dell R610主机上工作得很好。 TBD是为什么ASA + ESXi + APF不能很好地协同工作的原因