我们正在运行一个KVM节点,它不规则地崩溃,显示出一个非常奇怪的行为。 有趣的是,我们已经有另一个每1-2周崩溃的节点出现这个问题。 由于找不到硬件问题,我们开始将虚拟机迁移到新节点。 在我们迁移了50%的虚拟机大概一个星期后,新的节点崩溃,而“旧”的虚拟机运行良好(正常运行3周,我们几个月没有看到这么好的运行时间)。
当一个节点崩溃时,我们有时会在Supermicro IPMI上看到这些奇怪的东西:
我们也看到:
我们从来没有看到的是在崩溃之前的核心恐慌或至less一些日志中的消息,完全沉默,直到突然灯熄灭。
随着问题从一台服务器“移动”到另一台(一台全新的机器),我认为只剩下几个选项:
有关机器的更多信息:
有没有人看到这种行为或可以说一些关于控制台上的奇怪的“消息”? 我从来没有见过这样的事情,甚至不知道我应该如何描述这个谷歌search。 目前我们不知道下一步应该做什么,因为它可能是一切。
提前致谢!
这可能是一个CPU错误。 英特尔发布了关于这个问题的勘误,他们还提供了E5 v3 / v4 CPU的微码更新(date代码20170707)。 CentOS 7.4已经有了一个更新的微码版本0xb000021(在CentOS 7.3中是0xb00001e)。 这可能有助于交换微码或升级到7.4。 这个系统也冻结了很多麻烦。 我交换了主板(X10DRi),内存,CPU和powersupply没有成功。 我不能确定这是否是解决scheme,因为我没有足够的正常运行时间,因为我更新了微码。 Supermicro仍然不提供具有当前英特尔微代码的更新的BIOS。 您可能会从X10DRI的分销商处获得非正式的预发行。
一个简短的更新:升级到最新的LTS内核(4.4.39)后,服务器是稳定的。 正常运行时间19天,所以我认为我们得到了它。 虽然我们并不知道根本原因,但我们认为CentOS 7内核(3.10)对于一些非常现代化的硬件来说可能太旧了。 由于我们无法提供有用的错误讯息(例如最佳情况下的内核恐慌),我们决定不向CentOS开发者汇报。