我在两个不同的设置上遇到VMWare vSphere 5.1和NFS存储问题,导致NFS共享的“All Path Down”状态。 首先发生一次或一天两次,但最近发生的频率更高,特别是当Acronis Backup作业正在运行时。
设置1(生产):2台ESXi 5.1主机(Essentials Plus)+以NFS为存储的OpenFiler
安装程序2(Lab):1 ESXi 5.1主机+ Ubuntu 12.04 LTS,NFS作为存储
这是来自vmkernel.log的一个例子:
2013-05-28T08:07:33.479Z cpu0:2054)StorageApdHandler: 248: APD Timer started for ident [987c2dd0-02658e1e] 2013-05-28T08:07:33.479Z cpu0:2054)StorageApdHandler: 395: Device or filesystem with identifier [987c2dd0-02658e1e] has entered the All Paths Down state. 2013-05-28T08:07:33.479Z cpu0:2054)StorageApdHandler: 846: APD Start for ident [987c2dd0-02658e1e]! 2013-05-28T08:07:37.485Z cpu0:2052)NFSLock: 610: Stop accessing fd 0x410007e4cf28 3 2013-05-28T08:07:37.485Z cpu0:2052)NFSLock: 610: Stop accessing fd 0x410007e4d0e8 3 2013-05-28T08:07:41.280Z cpu1:2049)StorageApdHandler: 277: APD Timer killed for ident [987c2dd0-02658e1e] 2013-05-28T08:07:41.280Z cpu1:2049)StorageApdHandler: 402: Device or filesystem with identifier [987c2dd0-02658e1e] has exited the All Paths Down state. 2013-05-28T08:07:41.281Z cpu1:2049)StorageApdHandler: 902: APD Exit for ident [987c2dd0-02658e1e]! 2013-05-28T08:07:52.300Z cpu1:3679)NFSLock: 570: Start accessing fd 0x410007e4d0e8 again 2013-05-28T08:07:52.300Z cpu1:3679)NFSLock: 570: Start accessing fd 0x410007e4cf28 again
只要这个问题每天发生一两次,那真的不是问题,但现在这个问题对虚拟机有影响。 虚拟机变慢甚至挂起,导致在生产环境中通过vCenter进行重置。
我广泛search网页,并在论坛上提问,但直到现在还没有人能够帮助我。 根据博客文章和VMWare知识库文章,我尝试了以下NFS设置:
Net.TcpipHeapSize = 32
Net.TcpipHeapMax = 128
NFS.HartbeatFrequency = 12
NFS.HartbeatMaxFailures = 10
NFS.HartbeatTimeout = 5
NFS.MaxQueueDepth = 64
而不是NFS.MaxQueueDepth = 64我已经尝试其他设置,如NFS.MaxQueueDepth = 32甚至NFS.MaxQueueDepth = 1。不幸的是没有任何运气。
如果有人可以帮我解决这个问题,那将会很棒。 这真的很烦人。
在此先感谢所有的帮助。
[更新]正如我在下面的评论中解释的,这里是networking设置:
在生产设置上,NFSstream量绑定到ID为20的单独VLAN。我正在使用HP 1810 24端口交换机。 OpenFiler系统通过带有dynamicLACP的4个Intel GbE NIC连接到VLAN。 ESXi都有4个Intel GbE网卡,每个网卡使用2个静态LACP中继,每个中间包含2个网卡。 一对连接到常规LAN,另一对连接到VLAN 20。
以下是vSwitch的屏幕截图: 
开关configuration: 
端口configuration: 
在实验室设置一个单一的英特尔网卡在每个方面没有VLAN,但与不同的IP子网。
我build议不要在ESXi主机端使用静态中继。 他们可能没有做你期望的(> 1Gbps的传输速度)。 尝试一下,看看会产生什么样的影响…我在ESXi主机端使用多个NICconfigurationNFS存储,但是执行存储单元到交换机的LACP。
我有同样的确切问题。 事实certificate,这是我的物理交换机,其MTU我已经设置为9000,我的VMK端口也设置为9000。 看起来像天堂里的一场比赛。 我的开关希望它被设置为9000+。 不知道什么是加号是因为我把它设置为9216(开关的最大值)在一个绝望的行为,它的工作。