RHEL5工作站上的常规系统打嗝

我有一台最近开始“打嗝”的RHEL5工作站。大约每三十秒钟，它显然完全停止执行约4秒钟。在这段期间似乎没有任何运行。长期的stream程似乎赶上了他们的投入，但是新的stream程根本就没有开始。

具体例子：

我有这个循环运行在一个shell中：

while date; do sleep 0.2 done

输出只是跳过缺less的秒钟：

 Fri Aug 13 15:20:29 EDT 2010 Fri Aug 13 15:20:29 EDT 2010 Fri Aug 13 15:20:29 EDT 2010 Fri Aug 13 15:20:30 EDT 2010 Fri Aug 13 15:20:30 EDT 2010 Fri Aug 13 15:20:30 EDT 2010 Fri Aug 13 15:20:30 EDT 2010 Fri Aug 13 15:20:34 EDT 2010 Fri Aug 13 15:20:34 EDT 2010 Fri Aug 13 15:20:35 EDT 2010 Fri Aug 13 15:20:35 EDT 2010 Fri Aug 13 15:20:35 EDT 2010

如果在terminal上input本地控制台或通过ssh或telnet远程login，echoback会在无响应的时间内暂停，但当它再次开始响应时会回复，显然没有丢失input，只是滞后。

ping在没有响应的时间内没有响应，但是在响应时响应：

 64 bytes from xxx: icmp_seq=1911 ttl=64 time=0.203 ms 64 bytes from xxx: icmp_seq=1912 ttl=64 time=0.199 ms 64 bytes from xxx: icmp_seq=1913 ttl=64 time=3202 ms 64 bytes from xxx: icmp_seq=1914 ttl=64 time=2196 ms 64 bytes from xxx: icmp_seq=1915 ttl=64 time=1197 ms 64 bytes from xxx: icmp_seq=1916 ttl=64 time=195 ms 64 bytes from xxx: icmp_seq=1917 ttl=64 time=0.201 ms 64 bytes from xxx: icmp_seq=1918 ttl=64 time=0.206 ms

这似乎意味着它实际上在无响应期间接收input，因为这些ICMP分组不被重新传输。

vmstat 1输出也延迟了，但是没有赶上。就好像这几秒没有发生。它也显示了在等待过程中的上升，以及中断和上下文切换的下降：

 procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------ rb swpd free buff cache si so bi bo in cs us sy id wa st 0 0 132 3111220 305540 588012 0 0 0 0 1035 151 1 1 99 0 0 0 0 132 3111096 305540 588012 0 0 0 0 1019 125 0 0 99 0 0 0 0 132 3111220 305540 588012 0 0 0 44 1034 154 0 1 99 0 0 1 0 132 3111096 305540 588012 0 0 0 0 1016 131 0 0 99 0 0 6 0 132 3111096 305540 588012 0 0 0 0 417 82 0 0 100 0 0 0 0 132 3111220 305540 588012 0 0 0 0 1041 155 0 1 99 0 0 0 0 132 3111096 305540 588012 0 0 0 0 1019 123 1 1 99 0 0 0 0 132 3111220 305540 588012 0 0 0 0 1032 142 0 1 99 0 0 0 0 132 3111096 305544 588008 0 0 0 44 1019 134 0 0 99 0 0

重新启动会使问题消失一段时间。最近这六天才回来。我不确定这是否一致。

我最初怀疑这个问题可能与nVidiavideo驱动程序模块有关，但是我closures了X Windows并删除了模块，而没有改变症状。

在dmesg或/ var / log / messages中没有任何东西与远程相关或与打嗝不相符合。硬盘似乎并不是一个问题，因为如果真是这样的话，我希望艾奥瓦在这个没有反应的时期是突出的，但事实并非如此。这不太可能是一个硬件问题，因为打嗝非常规律。我一直无法把它们计时到几毫秒，但这是一个相当一致的30/4/30/4/30/4。

有任何想法吗？

我的钱仍然是硬盘故障。我在个人Windows桌面上发生过类似的事情。甚至一台老式的太阳机也performance出类似的冻结问题。不过，我不会声称我深入探究这个问题，注意到从睡眠壳中滴下的秒钟。无论如何，您可能想要查看是否可以从RAID控制器中获取任何信息，或者排除硬盘。

我的服务器也有打嗝。我发现这个工具： http : //www.latencytop.org/ 。不幸的是，我的打嗝不是经常发生。