Ubuntu服务器随机hangups

这是我第一次发布到这个论坛，我通过StackOverFlow的超级播客“It Conversations”find了这个论坛。我在伦敦的一个展览中心担任服务器pipe理员。基本上我们有一个中央文件和sql服务器，大概有40个工作站连接到上传/下载一组应用程序使用/捕获的数据。

在过去的几周里，我们经历了一些对我们的应用程序的随意挂断，因为它总是发生在多个应用程序同时发生，我不相信这些应用程序是问题的根源。我们还使用Dartware Intermapper监控networking，指出networking中的所有交换机和站点在停机期间都可以访问。因此，它的全部指向服务器。

我一直在浏览所有我能想到的日志文件，迄今为止，我发现可疑的唯一情况是系统日志中的以下几行内容：

Feb 6 17:14:27 es named[5582]: client 127.0.0.1#33721: RFC 1918 response from Internet for 150.0.168.192.in-addr.arpa Feb 6 17:14:40 es named[5582]: client 127.0.0.1#32899: RFC 1918 response from Internet for 152.0.168.192.in-addr.arpa Feb 6 17:15:01 es /USR/SBIN/CRON[1956]: (es) CMD (/home/es/apps/es/bin/es_checksum.sh) Feb 6 17:16:06 es /USR/SBIN/CRON[2031]: (es) CMD (/home/es/apps/es/bin/es_checksum.sh) Feb 6 17:21:00 es named[5582]: *** POKED TIMER *** Feb 6 17:21:00 es last message repeated 2 times Feb 6 17:21:07 es named[5582]: client 127.0.0.1#44194: RFC 1918 response from Internet for 143.0.168.192.in-addr.arpa Feb 6 17:21:12 es named[5582]: client 127.0.0.1#59004: RFC 1918 response from Internet for 164.0.168.192.in-addr.arpa

我在这里find几行有趣的代码：

1）“来自Internet的RFC 1918响应150.1.168.192.in-addr.arpa”。我在syslog中看到了很多 。基本上每次我为集群中的任何一台计算机执行nslookup时，系统日志中会出现一个新的类似的行。我从谷歌了解到，这与反向查找问题有关。但我不知道这会如何影响系统。可以说，每当用户连接到服务器时，就会出现其中一行，每秒可能发生几次。这可能导致整个服务器的挂断？

2）扑克计时器，我search了很多，但没有find一个我可以涉及到的解释。这是什么意思？

3）时间戳，似乎整个服务器已经停止响应几分钟。通常这台服务器每分钟有很多打印输出到系统日志。此外，CRON工作每分钟运行一次。根据日志，发生在这里。

OS：Ubuntu 8.04内核：Linux 2.6.24-24-x86_64 GNU / Linux。硬件：戴尔R710，RAID1，CPU：2x XEON E5530。 16GB内存。平均负载非常低，内存不应该是一个问题。

请让我知道，如果你需要任何额外的信息。

最好的祝愿

这是一个非常奇怪和不好的情况。我从来没有看到一个主机停止工作5分钟，然后再次工作没有麻烦和logging日志。你真的确定日志里没有东西吗？最后告诉了什么？我不确定，但我不认为你在syslog中报告的exception与你的问题有关。你有关于syslog中没有logging的时间的数据吗？ sysstat没有告诉任何有关这五分钟的事情？如果它不是因为它没有安装，你可以安装它。而其他日志之间有17:16和17:21之间的差距？

这个问题与Ubuntu 8.04 LTS（Hardy）和Dell PERC 6 / i RAID控制器之间的兼容性问题有关，就像这个bug报告的那样： https : //bugs.launchpad.net/ubuntu/+source/linux/+bug / 607167升级到Ubuntu 10.04 LTS Lucid（内核2.6.32）解决了这个问题。

以防其他人遇到同样的问题。