这是我第一次发布到这个论坛,我通过StackOverFlow的超级播客“It Conversations”find了这个论坛。 我在伦敦的一个展览中心担任服务器pipe理员。 基本上我们有一个中央文件和sql服务器,大概有40个工作站连接到上传/下载一组应用程序使用/捕获的数据。
在过去的几周里,我们经历了一些对我们的应用程序的随意挂断,因为它总是发生在多个应用程序同时发生,我不相信这些应用程序是问题的根源。 我们还使用Dartware Intermapper监控networking,指出networking中的所有交换机和站点在停机期间都可以访问。 因此,它的全部指向服务器。
我一直在浏览所有我能想到的日志文件,迄今为止,我发现可疑的唯一情况是系统日志中的以下几行内容:
Feb 6 17:14:27 es named[5582]: client 127.0.0.1#33721: RFC 1918 response from Internet for 150.0.168.192.in-addr.arpa Feb 6 17:14:40 es named[5582]: client 127.0.0.1#32899: RFC 1918 response from Internet for 152.0.168.192.in-addr.arpa Feb 6 17:15:01 es /USR/SBIN/CRON[1956]: (es) CMD (/home/es/apps/es/bin/es_checksum.sh) Feb 6 17:16:06 es /USR/SBIN/CRON[2031]: (es) CMD (/home/es/apps/es/bin/es_checksum.sh) Feb 6 17:21:00 es named[5582]: *** POKED TIMER *** Feb 6 17:21:00 es last message repeated 2 times Feb 6 17:21:07 es named[5582]: client 127.0.0.1#44194: RFC 1918 response from Internet for 143.0.168.192.in-addr.arpa Feb 6 17:21:12 es named[5582]: client 127.0.0.1#59004: RFC 1918 response from Internet for 164.0.168.192.in-addr.arpa
我在这里find几行有趣的代码:
1)“来自Internet的RFC 1918响应150.1.168.192.in-addr.arpa”。 我在syslog中看到了很多 。 基本上每次我为集群中的任何一台计算机执行nslookup时,系统日志中会出现一个新的类似的行。 我从谷歌了解到,这与反向查找问题有关。 但我不知道这会如何影响系统。 可以说,每当用户连接到服务器时,就会出现其中一行,每秒可能发生几次。 这可能导致整个服务器的挂断?
2)扑克计时器,我search了很多,但没有find一个我可以涉及到的解释。 这是什么意思?
3)时间戳,似乎整个服务器已经停止响应几分钟。 通常这台服务器每分钟有很多打印输出到系统日志。 此外,CRON工作每分钟运行一次。 根据日志,发生在这里。
OS:Ubuntu 8.04内核:Linux 2.6.24-24-x86_64 GNU / Linux。 硬件:戴尔R710,RAID1,CPU:2x XEON E5530。 16GB内存。 平均负载非常低,内存不应该是一个问题。
请让我知道,如果你需要任何额外的信息。
最好的祝愿
这是一个非常奇怪和不好的情况。 我从来没有看到一个主机停止工作5分钟,然后再次工作没有麻烦和logging日志。 你真的确定日志里没有东西吗? 最后告诉了什么? 我不确定,但我不认为你在syslog中报告的exception与你的问题有关。 你有关于syslog中没有logging的时间的数据吗? sysstat没有告诉任何有关这五分钟的事情? 如果它不是因为它没有安装,你可以安装它。 而其他日志之间有17:16和17:21之间的差距?
这个问题与Ubuntu 8.04 LTS(Hardy)和Dell PERC 6 / i RAID控制器之间的兼容性问题有关,就像这个bug报告的那样: https : //bugs.launchpad.net/ubuntu/+source/linux/+bug / 607167升级到Ubuntu 10.04 LTS Lucid(内核2.6.32)解决了这个问题。
以防其他人遇到同样的问题。