Linux Centos 6不时不可用 – 操作系统和networking问题

我遇到以下问题。有一台运行Centos 6.3的服务器（DL160 G5），默认内核为2.6.32-220.2.1.el6.x86_64 – 在这一点上，我想补充说的是，在旧版本6.1和更旧版本的内核中也出现了这个问题记得究竟是哪个版本）。有cPanel安装，并不时无法使用（networking连接）。我查过的是（通过KVMoIP）：

平均负载是完全正常的
问题发生时，它不会缺less内存或磁盘空间
没有控制台通知
检查所有访问日志，并没有迹象表明它可能是由客户端脚本造成的
甚至不能访问本地接口（127.0.0.1）或主IP地址
运行tcpdump我只能看到数据包到达服务器 – 没有任何反应
所有的服务似乎正常运行（邮件，SQL，HTTP，SSH）
检查crontab和所有客户端的crontabs
networking端口利用率低（高达几Mbits）
到达数据包速率很低 – 每秒数百（根据tcpdump）
控制台（通过kvmoip）工作正常，没有滞后
在这台服务器上没有任何限制
在这台服务器上没有ipv6
刷新iptables，卸载模块不能解决问题
重新启动networking不能解决问题，不会出现错误
当两个独立networkingconfiguration（和多个网关）以及一个IP，一个默认gw和一个networking被configuration时，也会出现这种情况 – 所以看起来networkingconfiguration是独立的
它似乎随机重复（负载，数据包速率，带宽使用，负载独立）
检查服务器与不同的rootkit检测工具 – 它似乎是干净的
服务器已经重新启动，它没有改变任何东西
没有接口错误
它随机可以是一周一次或每天几次

它通常在1-15分钟后正常工作。我还可以检查什么？这绝对是操作系统问题 – 问题发生时接口只有一个方向的stream量，甚至不能ping回环路。有任何想法吗？ build议检查？任何我没有检查上面。

这是一个漫长的过程，但是我最近遇到了一个问题，那就是在某些系统的随机时间内，某些系统会经历非常高的“SYSTEM”cpu时间，这已经足够糟糕，集群工具会认为系统已经死机，并且暂停等等。

在你的问题期间，尝试一下，点击1来展开CPU，看看是否有一个或多个处理器显示奇怪的行为。

这是如果这个问题有效的话。注意高“sy”值。

 Cpu0 : 16.7%us, 25.0%sy, 0.0%ni, 50.0%id, 0.0%wa, 0.0%hi, 8.3%si, 0.0%st Cpu1 : 28.6%us, 42.9%sy, 0.0%ni, 28.6%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st Cpu2 : 6.0%us, 11.3%sy, 0.0%ni, 80.5%id, 0.0%wa, 0.0%hi, 2.3%si, 0.0%st Cpu3 : 20.0%us, 60.0%sy, 0.0%ni, 20.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st

您也可以运行dstat -talm （可能是后台并将其redirect到文件）来获取每秒统计信息，这可能有助于诊断问题，以防您无法在开始时查看问题。

请注意，对于我的问题，我最终在Red Hat的支持上工作了好几个星期，最后只是尝试安装更新的内核修补版本，即解决scheme。

CentOS或Linux的任何变种都不会仅仅为了好玩而做。有一个潜在的硬件问题。

我的猜测是，您的服务器是VMware或其他虚拟客户端，并且在拍摄客户端快照时发生问题。

你的要点列表很长，但没有提到日志。在dmesg输出或/var/log什么有趣的地方？