RHEL5工作站上的常规系统打嗝

我有一台最近开始“打嗝”的RHEL5工作站。 大约每三十秒钟,它显然完全停止执行约4秒钟。 在这段期间似乎没有任何运行。 长期的stream程似乎赶上了他们的投入,但是新的stream程根本就没有开始。

具体例子:

  • 我有这个循环运行在一个shell中:

    while date; do sleep 0.2 done 

    输出只是跳过缺less的秒钟:

     Fri Aug 13 15:20:29 EDT 2010 Fri Aug 13 15:20:29 EDT 2010 Fri Aug 13 15:20:29 EDT 2010 Fri Aug 13 15:20:30 EDT 2010 Fri Aug 13 15:20:30 EDT 2010 Fri Aug 13 15:20:30 EDT 2010 Fri Aug 13 15:20:30 EDT 2010 Fri Aug 13 15:20:34 EDT 2010 Fri Aug 13 15:20:34 EDT 2010 Fri Aug 13 15:20:35 EDT 2010 Fri Aug 13 15:20:35 EDT 2010 Fri Aug 13 15:20:35 EDT 2010 
  • 如果在terminal上input本地控制台或通过ssh或telnet远程login,echoback会在无响应的时间内暂停,但当它再次开始响应时会回复,显然没有丢失input,只是滞后。

  • ping在没有响应的时间内没有响应,但是在响应时响应:

     64 bytes from xxx: icmp_seq=1911 ttl=64 time=0.203 ms 64 bytes from xxx: icmp_seq=1912 ttl=64 time=0.199 ms 64 bytes from xxx: icmp_seq=1913 ttl=64 time=3202 ms 64 bytes from xxx: icmp_seq=1914 ttl=64 time=2196 ms 64 bytes from xxx: icmp_seq=1915 ttl=64 time=1197 ms 64 bytes from xxx: icmp_seq=1916 ttl=64 time=195 ms 64 bytes from xxx: icmp_seq=1917 ttl=64 time=0.201 ms 64 bytes from xxx: icmp_seq=1918 ttl=64 time=0.206 ms 

    这似乎意味着它实际上在无响应期间接收input,因为这些ICMP分组不被重新传输。

  • vmstat 1输出也延迟了,但是没有赶上。 就好像这几秒没有发生。 它也显示了在等待过程中的上升,以及中断和上下文切换的下降:

     procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------ rb swpd free buff cache si so bi bo in cs us sy id wa st 0 0 132 3111220 305540 588012 0 0 0 0 1035 151 1 1 99 0 0 0 0 132 3111096 305540 588012 0 0 0 0 1019 125 0 0 99 0 0 0 0 132 3111220 305540 588012 0 0 0 44 1034 154 0 1 99 0 0 1 0 132 3111096 305540 588012 0 0 0 0 1016 131 0 0 99 0 0 6 0 132 3111096 305540 588012 0 0 0 0 417 82 0 0 100 0 0 0 0 132 3111220 305540 588012 0 0 0 0 1041 155 0 1 99 0 0 0 0 132 3111096 305540 588012 0 0 0 0 1019 123 1 1 99 0 0 0 0 132 3111220 305540 588012 0 0 0 0 1032 142 0 1 99 0 0 0 0 132 3111096 305544 588008 0 0 0 44 1019 134 0 0 99 0 0 

重新启动会使问题消失一段时间。 最近这六天才回来。 我不确定这是否一致。

我最初怀疑这个问题可能与nVidiavideo驱动程序模块有关,但是我closures了X Windows并删除了模块,而没有改变症状。

在dmesg或/ var / log / messages中没有任何东西与远程相关或与打嗝不相符合。 硬盘似乎并不是一个问题,因为如果真是这样的话,我希望艾奥瓦在这个没有反应的时期是突出的,但事实并非如此。 这不太可能是一个硬件问题,因为打嗝非常规律。 我一直无法把它们计时到几毫秒,但这是一个相当一致的30/4/30/4/30/4。

有任何想法吗?

我的钱仍然是硬盘故障。 我在个人Windows桌面上发生过类似的事情。 甚至一台老式的太阳机也performance出类似的冻结问题。 不过,我不会声称我深入探究这个问题,注意到从睡眠壳中滴下的秒钟。 无论如何,您可能想要查看是否可以从RAID控制器中获取任何信息,或者排除硬盘。

我的服务器也有打嗝。 我发现这个工具: http : //www.latencytop.org/ 。 不幸的是,我的打嗝不是经常发生。