我们有一个拥有8个IQ 12000x节点的Isilon群集,通过多个NFS共享为less数Linux和Solaris客户端导出存储。
有一个Linux系统安装了这些NFS文件系统之一。 Linux系统对这个文件系统的I / O比较重。 每3-4周(没有任何明显的时间表,有时比这更频繁),我们注意到所有的活动停止在这个NFS挂载(过程挂起,就好像networking停止工作,所以过程是陷入不间断的睡眠) – 30分钟后,份额恢复,事情继续正常工作。 受影响机器的内核日志如下:
Dec 3 10:07:29 redacted kernel: [8710020.871993] nfs: server nfs-redacted not responding, still trying Dec 3 10:37:17 redacted kernel: [8711805.966130] nfs: server nfs-redacted OK
相关的/etc/fstab行:
nfs-redacted:/ifs/nfs/export_data/shared/...redacted... /data nfs defaults 0 0
我已经检查是否有任何计划的进程,如cron作业,Isilon相关的function,如快照等,可能会导致这些hangups,但我似乎无法find任何东西。 我也不知道任何networking相关的问题或维护,将导致这一点。 所有的locking每个内核日志持续几乎30分钟。
也许有人有一些build议,我可以尝试? (为了避免与访问文件系统的进程相关的问题,我认为这是一个软装入(soft mount);但是,对于可能导致的破坏谨慎,无论如何也不能解决潜在的问题)。
检查您的MTU值是否正确贯穿您的布线拓扑结构。 如果您的接入层客户端设置为9000,并且正在通过交换机。 确保交换机可以处理更大的MTU尺寸。