从15.04升级到Ubuntu 15.10后,EC2 Web服务器崩溃

我在EC2上运行着各种各样的Ubuntu机器,大约有30个从15.04升级到15.10。 对于大多数机器来说,升级完美无缺,完全没有任何问题。

但是,我的10个networking服务器在15.10升级之后立即开始崩溃。 至于什么确切定义了“崩溃”,实例状态检查失败,我不能再SSH到机器。 在系统上运行的后台守护进程停止响应,并且没有任何内容写入日志。 我在一台机器上看到的最新日志条目显示:

/var/log/syslog:Dec 18 00:28:58 xxx-web-4a dhclient: DHCPREQUEST of 10.xxx.xxx.104 on eth0 to 10.xxx.xxx.1 port 67 (xid=0x616a091d) /var/log/syslog:Dec 18 00:28:58 xxx-web-4a dhclient: DHCPACK of 10.xxx.xxx.104 from 10.xxx.xxx.1 /var/log/syslog:Dec 18 00:28:58 xxx-web-4a dhclient: bound to 10.xxx.xxx.104 -- renewal in 1640 seconds. 

但是我的实例状态检查直到00:32:00才开始失败(当几个检查中的第一个检查失败时)。 在上述条目之后的期间,日志中绝对没有任何内容。

现在,就像我说的那样,其他15.10个实例在升级后的六个星期内从未崩溃,只有这一套networking服务器,而且都崩溃了。 那么,这些机器有什么不同呢? 只有两件事,真的。

  1. 他们是我的最高stream量15.10个实例,平均发送和接收约5-10Mb /秒,有时甚至超过30-40。
  2. 他们是我的只有typesc4.xlargem4.xlarge实例。 最初,他们都是c4.xlarge ,但我用m4.xlargereplace他们来试图隔离问题。 m4.xlarge似乎不那么频繁,但是我仍然在10个networking服务器之间看到3或4次左右的崩溃。 一般来说,我看到每个实例至less每天崩溃一次,看似随机的时间。

这些实例正在运行Apache 2.4.x,mod_php 5.6.11和memcached 1.4.24,但是我有其他机器在较小的实例types上接收较less的stream量,这些实例是非常稳定的。

不确定是否相关,但所有这些机器都会看到定期的ifquery segfaults,例如:

 /var/log/syslog:Dec 17 14:02:05 xxx-web-3a kernel: [ 22.592488] ifquery[476]: segfault at 1 ip 0000000000403187 sp 00007ffde8596050 error 4 in ifup[400000+d000] /var/log/syslog:Dec 17 14:02:05 xxx-web-3a kernel: [ 23.593774] ifquery[510]: segfault at 1 ip 0000000000403187 sp 00007ffde6087b90 error 4 in ifup[400000+d000] /var/log/syslog:Dec 17 14:02:05 xxx-web-3a kernel: [ 24.594994] ifquery[531]: segfault at 1 ip 0000000000403187 sp 00007ffe70747a50 error 4 in ifup[400000+d000] /var/log/syslog:Dec 17 14:04:12 xxx-web-3a kernel: [ 2.623024] ifquery[367]: segfault at 1 ip 0000000000403187 sp 00007ffefc980f60 error 4 in ifup[400000+d000] 

一个系统,在c4.xlarge – > m4.xlarge迁移之前,在系统控制台日志中看到一个General Protection Faultlogging一次,但是我没有再看到这个。

我没有看到我的其他15.10机器没有崩溃这些segfaults。

这些都是使用英特尔82599 10G以太网的增强型networking实例,我稍微怀疑可能会导致此问题,但是,我使用运行15.10的相同适配器的其他(低stream量)计算机却没有崩溃。

有没有人看到类似的问题,或有任何想法debugging或修复? 谢谢!

编辑

查看控制台日志,我的一个频繁崩溃的系统在重新启动之前报告了一个常规保护错误:

 [171009.844097] general protection fault: 0000 [#1] [ 0.000000] Initializing cgroup subsys cpuset