服务器冻结,没有内核恐慌

我们正在运行一个KVM节点,它不规则地崩溃,显示出一个非常奇怪的行为。 有趣的是,我们已经有另一个每1-2周崩溃的节点出现这个问题。 由于找不到硬件问题,我们开始将虚拟机迁移到新节点。 在我们迁移了50%的虚拟机大概一个星期后,新的节点崩溃,而“旧”的虚拟机运行良好(正常运行3周,我们几个月没有看到这么好的运行时间)。

当一个节点崩溃时,我们有时会在Supermicro IPMI上看到这些奇怪的东西:

在这里输入图像说明 在这里输入图像说明

我们也看到:

  • “没有信号”就像服务器已closures(当然不是,在IPMI主页上也没有显示关机)
  • 正常的login屏幕或服务器的其他正常输出,但冻结

我们从来没有看到的是在崩溃之前的核心恐慌或至less一些日志中的消息,完全沉默,直到突然灯熄灭。

随着问题从一台服务器“移动”到另一台(一台全新的机器),我认为只剩下几个选项:

  • 一个特定的VM正在造成这个问题
  • 内核错误
  • 硬件问题关于我们的设置

有关机器的更多信息:

  • 最新内核的CentOS 7(3.10.0-514.2.2.el7.x86_64)
  • 带有冗余电源的Supermicro机箱
  • 带有最新BIOS版本的Supermicro X10DRi / X10DRWi
  • 英特尔至强E5-2630 v3 / v4
  • 512 GB DDR4 ECC RAM(三星服务器内存)
  • 145个虚拟机正在运行(远离饱和的RAM和CPU,也由于KSM)
  • 带有8/16 SSD的软件RAID-10

有没有人看到这种行为或可以说一些关于控制台上的奇怪的“消息”? 我从来没有见过这样的事情,甚至不知道我应该如何描述这个谷歌search。 目前我们不知道下一步应该做什么,因为它可能是一切。

提前致谢!

这可能是一个CPU错误。 英特尔发布了关于这个问题的勘误,他们还提供了E5 v3 / v4 CPU的微码更新(date代码20170707)。 CentOS 7.4已经有了一个更新的微码版本0xb000021(在CentOS 7.3中是0xb00001e)。 这可能有助于交换微码或升级到7.4。 这个系统也冻结了很多麻烦。 我交换了主板(X10DRi),内存,CPU和powersupply没有成功。 我不能确定这是否是解决scheme,因为我没有足够的正常运行时间,因为我更新了微码。 Supermicro仍然不提供具有当前英特尔微代码的更新的BIOS。 您可能会从X10DRI的分销商处获得非正式的预发行。

一个简短的更新:升级到最新的LTS内核(4.4.39)后,服务器是稳定的。 正常运行时间19天,所以我认为我们得到了它。 虽然我们并不知道根本原因,但我们认为CentOS 7内核(3.10)对于一些非常现代化的硬件来说可能太旧了。 由于我们无法提供有用的错误讯息(例如最佳情况下的内核恐慌),我们决定不向CentOS开发者汇报。