Linux Centos 6不时不可用 – 操作系统和networking问题

我遇到以下问题。 有一台运行Centos 6.3的服务器(DL160 G5),默认内核为2.6.32-220.2.1.el6.x86_64 – 在这一点上,我想补充说的是,在旧版本6.1和更旧版本的内核中也出现了这个问题记得究竟是哪个版本)。 有cPanel安装,并不时无法使用(networking连接)。 我查过的是(通过KVMoIP):

  • 平均负载是完全正常的
  • 问题发生时,它不会缺less内存或磁盘空间
  • 没有控制台通知
  • 检查所有访问日志,并没有迹象表明它可能是由客户端脚本造成的
  • 甚至不能访问本地接口(127.0.0.1)或主IP地址
  • 运行tcpdump我只能看到数据包到达服务器 – 没有任何反应
  • 所有的服务似乎正常运行(邮件,SQL,HTTP,SSH)
  • 检查crontab和所有客户端的crontabs
  • networking端口利用率低(高达几Mbits)
  • 到达数据包速率很低 – 每秒数百(根据tcpdump)
  • 控制台(通过kvmoip)工作正常,没有滞后
  • 在这台服务器上没有任何限制
  • 在这台服务器上没有ipv6
  • 刷新iptables,卸载模块不能解决问题
  • 重新启动networking不能解决问题,不会出现错误
  • 当两个独立networkingconfiguration(和多个网关)以及一个IP,一个默认gw和一个networking被configuration时,也会出现这种情况 – 所以看起来networkingconfiguration是独立的
  • 它似乎随机重复(负载,数据包速率,带宽使用,负载独立)
  • 检查服务器与不同的rootkit检测工具 – 它似乎是干净的
  • 服务器已经重新启动,它没有改变任何东西
  • 没有接口错误
  • 它随机可以是一周一次或每天几次

它通常在1-15分钟后正常工作。 我还可以检查什么? 这绝对是操作系统问题 – 问题发生时接口只有一个方向的stream量,甚至不能ping回环路。 有任何想法吗? build议检查? 任何我没有检查上面。

这是一个漫长的过程,但是我最近遇到了一个问题,那就是在某些系统的随机时间内,某些系统会经历非常高的“SYSTEM”cpu时间,这已经足够糟糕,集群工具会认为系统已经死机,并且暂停等等。

在你的问题期间,尝试一下,点击1来展开CPU,看看是否有一个或多个处理器显示奇怪的行为。

这是如果这个问题有效的话。 注意高“sy”值。

 Cpu0 : 16.7%us, 25.0%sy, 0.0%ni, 50.0%id, 0.0%wa, 0.0%hi, 8.3%si, 0.0%st Cpu1 : 28.6%us, 42.9%sy, 0.0%ni, 28.6%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st Cpu2 : 6.0%us, 11.3%sy, 0.0%ni, 80.5%id, 0.0%wa, 0.0%hi, 2.3%si, 0.0%st Cpu3 : 20.0%us, 60.0%sy, 0.0%ni, 20.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st 

您也可以运行dstat -talm (可能是后台并将其redirect到文件)来获取每秒统计信息,这可能有助于诊断问题,以防您无法在开始时查看问题。

请注意,对于我的问题,我最终在Red Hat的支持上工作了好几个星期,最后只是尝试安装更新的内核修补版本,即解决scheme。

CentOS或Linux的任何变种都不会仅仅为了好玩而做。 有一个潜在的硬件问题。

我的猜测是,您的服务器是VMware或其他虚拟客户端,并且在拍摄客户端快照时发生问题。

你的要点列表很长,但没有提到日志。 在dmesg输出或/var/log什么有趣的地方?