什么会导致整个红帽服务器“挂起”?

我们有两台定期“挂起”的红帽服务器。 系统在20 – 30秒内无响应,然后返回“正常”。 系统没有虚拟化,并运行在自己的专用硬件上。

当我说系统变得没有反应时,我知道这是因为一个脚本运行在系统上,每5秒钟一次,(1)打印出当前时间,(2)对系统上的一个网站执行一个wget,(3 )再次打印结束时间和(4)睡5秒。 我们从日志中看到,“5秒钟睡眠”有时需要20-30秒,而我们的Nagios monitering确认系统在相同的时间内无法到达。

基本上,系统是运行Tomcat6的Red Hat 6.5的干净安装。 此外,挂载了一个针对GlusterFS存储的NFS共享。 在这个驱动器上有一些活动。 而且,Tomcat6的webapps有些内存密集,需要7-15GB的内存。

我们一直在试图弄清楚几个星期之后造成这种情况的原因,而我们正处于某种意义上的状态。 Tomcat应用程序已经被仔细检查,我们已经尝试了NFS挂载的各种选项,我们已经用SELinux进行了实验,并且这个列表还在继续。 但是,问题依然存在。

有没有人有任何想法可能导致整个系统挂起?