NFS共享文件系统正在locking

我们的NFS共享文件系统正在locking。

请随时提出您认为相关的任何问题。 🙂

当时在“磁盘睡眠”状态下有很多进程,而且我们的机器上的负载平均值是天上的。 这些机器对SSH有反应,但是我们的大多数网站(apache + mod_php)只是挂起,就像我们的电子邮件系统(exim + dovecot)一样。 任何不需要写入文件系统的网站都可以继续运行。

负载平均值继续上升,直到达到某种超时值,但至less需要10-15分钟。 我已经看到加载平均值超过800,但机器仍然对不需要写入共享文件系统的操作做出响应。

我一直在调查各种各样的选项,这些选项都变成了红鲱鱼:nagios,proftpd,bind,cron任务。

我在文件服务器的系统日志中看到这些消息:

七月30 09:37:17 fs0内核:[1810036.560046] statd:服务器本地主机没有响应,超时
 7月30日09:37:17 fs0内核:[1810036.560053] nsm_mon_unmon:rpc失败,状态= -5
 7月30日09:37:17 fs0内核:[1810036.560064] lockd:无法监视node2
七月30 09:38:22 fs0内核:[1810101.384027] statd:服务器本地没有响应,超时
 7月30日09:38:22 fs0内核:[1810101.384033] nsm_mon_unmon:rpc失败,状态= -5
 7月30日09:38:22 fs0内核:[1810101.384044]locking:无法监视node0

涉及的软件:

VMWare,Debian lenny(64位),古代红帽(32位)(我相信是第七版),Debian etch(32位)

NFS,apache2 + mod_php,exim,dovecot,bind,amanda,proftpd,nagios,cacti,drbd,heartbeat,keepalived,LVS,cron,ssmtp,NIS,svn,puppet,memcache,mysql,postgres

Joomla!,Magento,Typo3,Midgard,Symfony,自定义的PHP应用程序

在这种情况下,请尝试重新挂载nfs分区。 它是否带有同步输出?