调整用作VMWare NFS数据存储的卷的大小会导致Linux VM问题

我们必须对我们的Netapp上使用的NFS数据存储VMWare使用的实时卷大小进行调整。 所有我们的Windows虚拟机在resize后都很好。 但是,我们的一些Linux VM有问题。

一些Linux VM停止响应。 重新启动这些虚拟机后,我找不到任何指示问题的日志。

但是我在某些虚拟机上find了这样的日志消息:

May 29 14:56:02 rhel6-server-1314 kernel: INFO: task jbd2/dm-0-8:382 blocked for more than 120 seconds. May 29 14:56:02 rhel6-server-1314 kernel: "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message. May 29 14:56:02 rhel6-server-1314 kernel: jbd2/dm-0-8 D 0000000000000000 0 382 2 0x00000000 May 29 14:56:02 rhel6-server-1314 kernel: ffff880037ce9c20 0000000000000046 ffff880037ce9be0 ffffffffa00041fc May 29 14:56:02 rhel6-server-1314 kernel: ffff880037ce9b90 ffffffff81012b59 ffff880037ce9bd0 ffffffff8109b809 May 29 14:56:02 rhel6-server-1314 kernel: ffff880037ce1af8 ffff880037ce9fd8 000000000000f4e8 ffff880037ce1af8 May 29 14:56:02 rhel6-server-1314 kernel: Call Trace: May 29 14:56:02 rhel6-server-1314 kernel: [<ffffffffa00041fc>] ? dm_table_unplug_all+0x5c/0x100 [dm_mod] ... rhel6-server-1314 May 29 14:56:02 rhel6-server-1314 kernel: [<ffffffff8100c140>] ? child_rip+0x0/0x20 May 29 14:56:02 rhel6-server-1314 kernel: INFO: task master:1674 blocked for more than 120 seconds. May 29 14:56:02 rhel6-server-1314 kernel: "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message. May 29 14:56:02 rhel6-server-1314 kernel: master D 0000000000000000 0 1674 1 0x00000080 May 29 14:56:02 rhel6-server-1314 kernel: ffff88003d669958 0000000000000086 ffff88003d669918 ffffffffa00041fc May 29 14:56:02 rhel6-server-1314 kernel: 0000000000000000 ffff880002216028 ffff880002215fc0 ffff88003fac2b78 May 29 14:56:02 rhel6-server-1314 kernel: ffff88003fac30f8 ffff88003d669fd8 000000000000f4e8 ffff88003fac30f8 May 29 14:56:02 rhel6-server-1314 kernel: Call Trace: May 29 14:56:02 rhel6-server-1314 kernel: [<ffffffffa00041fc>] ? dm_table_unplug_all+0x5c/0x100 [dm_mod] ... rhel6-server-1314 May 29 14:56:02 rhel6-server-1314 kernel: [<ffffffff8100b0f2>] system_call_fastpath+0x16/0x1b May 29 14:56:02 rhel6-server-1314 kernel: INFO: task pickup:6197 blocked for more than 120 seconds. May 29 14:56:02 rhel6-server-1314 kernel: "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message. May 29 14:56:02 rhel6-server-1314 kernel: pickup D 0000000000000000 0 6197 1674 0x00000080 May 29 14:56:02 rhel6-server-1314 kernel: ffff88003da95968 0000000000000086 ffff88003da95928 ffffffffa00041fc May 29 14:56:02 rhel6-server-1314 kernel: ffff88003da95938 ffff8800022128a0 ffff88003da95908 ffffffff81127ed0 May 29 14:56:02 rhel6-server-1314 kernel: ffff88003d90da78 ffff88003da95fd8 000000000000f4e8 ffff88003d90da78 May 29 14:56:02 rhel6-server-1314 kernel: Call Trace: May 29 14:56:02 rhel6-server-1314 kernel: [<ffffffffa00041fc>] ? dm_table_unplug_all+0x5c/0x100 [dm_mod] ... rhel6-server-1314 May 29 14:56:02 rhel6-server-1314 kernel: [<ffffffff8100b0f2>] system_call_fastpath+0x16/0x1b May 29 14:56:02 rhel6-server-1314 kernel: mptscsih: ioc0: attempting task abort! (sc=ffff880037bfd280) May 29 14:56:02 rhel6-server-1314 kernel: sd 2:0:0:0: [sda] CDB: Write(10): 2a 00 03 14 e8 d0 00 00 18 00 May 29 14:56:02 rhel6-server-1314 kernel: mptscsih: ioc0: WARNING - Issuing Reset from mptscsih_IssueTaskMgmt!! doorbell=0x24000000 May 29 14:56:02 rhel6-server-1314 kernel: mptscsih: ioc0: task abort: SUCCESS (rv=2002) (sc=ffff880037bfd280) May 29 14:56:02 rhel6-server-1314 kernel: scsi target2:0:0: Beginning Domain Validation May 29 14:56:02 rhel6-server-1314 kernel: scsi target2:0:0: Domain Validation skipping write tests May 29 14:56:02 rhel6-server-1314 kernel: scsi target2:0:0: Ending Domain Validation May 29 14:56:02 rhel6-server-1314 kernel: scsi target2:0:0: FAST-40 WIDE SCSI 80.0 MB/s ST (25 ns, offset 127) 

我的问题:

  1. 有谁知道这是什么原因造成的?
  2. 如果没有,我们还应该在哪里寻找线索?
  3. 最后,有没有人知道如何减轻这下一次我们必须做一个音量调整?

我想,这只是一个I / O超时。

我在远程NFS数据存储上的Linux VM上遇到过这样的问题。 NFS太慢了,我们的一些Linux VM将磁盘切换到只读模式(因此停止响应)。 可能在调整NFS数据存储区的大小时,会导致问题。 重新启动后,Linux虚拟机是否正常工作?

为了避免这样的问题,并稍微提高Linux客户端的I / O性能,您可以尝试将I / O调度程序切换到所有guest虚拟机的“noop”或“deadline”

http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=2011861

就我而言,我们在大多数Linux客户机上每周大约有一次这样的超时问题,即使是“调度程序修复”也是如此。 为了解决这个问题,我们从NFS切换到iSCSI(你也可以尝试优化你的NFS设置,比如“rsize”,“wsize”,MTU等等,但在我的情况下仍然不够),并试图减lessI / O可以在客人身上进行操作。

如果这是NetApp( 或任何其他NFS服务器 ),请确保适用于ESXi主机configuration的NFS最佳做法已到位。

对于NFS部署,我总是对NFS心跳和超时设置做一些调整。 这可能适用于你的情况。 请咨询您的存储工程师,看看您的设备具体的build议是什么。