在50个SuperMicro机器上发生BSOD 0x09c

对于一个项目,我们有50台服务器都配有(通常)相同的硬件。 我们这里的问题非常严重,发生在所有机器上。 尽pipe做了很多努力,联系制造商和软件开发人员,每个人都指向彼此,甚至拒绝给我一个线索。

首先让我描述一下设置。 这是“servergrade”硬件。 对于我的第一次经历,servergrade是我生命中最大的失望。

  • SuperMicro X10SDV-8C + -LN2F
  • 英特尔至强D-1540(embedded在主板上)
  • 定制devise的1U机箱或SuperMicro原装机箱
  • 480瓦服务器PSU或200瓦SuperMicro原始PSU
  • 三星Evo 850 500 GB SSD
  • 32 GB DDR4-2133 ECC或非ECC(但不在同一台服务器上混合使用)
  • 华硕GT730 4GB DDR3 GPU
  • GPU安装了一个PCIe转接卡(不是色带),来自中国或SuperMicro的原始名称

在系统上运行 – Windows Server 2012 R2 Enterprise – VMWare Workstation 12 – 虚拟机运行GPU密集型任务 – 该系统是现货,完全没有超频/低频

症状 – 随机BSOD 0x09c(aka Machine_Check_Exception) – 随机在有时系统运行一个星期没有问题,有时在10分钟后崩溃,但大多数运行几个小时。

已经尝试/检查 – BIOS更新到最新版本(我现在认为,这改善了系统稳定的时间,但可能是随机的 – Windows更新到最新版本 – VMWare更新到最新版本 – 交换所有的组件,并尝试了各种不同的select,甚至尝试了桌面ATX PSU和M.2固态硬盘 – 从零开始安装所有系统与Ubuntu。我不熟悉Linux,从来没有见过一个Linux BSOD,我还没有服务器系统是没有头的,我在DC上试了这个结果:系统会挂起,重新启动后,Linux报告XORG崩溃(与GPU有关) – 将BIOS中的GPU设置更改为4G以上,其余的BIOS默认为出厂默认设置。

还提供信息: – 系统位于数据中心。 温度,空气,功率和networking都是最佳的。 – 温度远远低于工厂最大值 – 我们在桌面电脑上运行完全相同的软件 (使用桌面硬件)。 这些系统每个月可以运行100台PC。 – 我已经联系了VMWare,这是一个硬件问题 – 我已经联系了SuperMicro,除了一些事情之外他们什么也没说,已经尝试过,而且这也可能是一个软件问题。

我们在这里绝望。 我们幸运地运行的应用程序是多余的。 如果一台服务器及其上的虚拟机掉线,这不是一个问题,其他服务器将在5分钟内接pipe负载,但是按照这个速度,我需要整天在线重启服务器。

我有一个很大的硬件知识,但是这已经过去了,我一整天都在search一个多月,尝试各种各样的事情。 事实上,这些主板与主机供应商大规模使用,让我怀疑自己的主板是好的。 这肯定不是RMA的特定硬件问题,因为所有50个主板都有相同的症状。 唯一与我们不同的是GPU。 这与Linux实验的结合使我怀疑这是PCIe通道上的一些东西。 GPU本身在桌面主板上是稳定的。 尽pipe它的内存容量很大,但它却是一个小型的GPU,并没有耗费太多的电力。 我会怀疑中国的立pipe卡,但是我们也再次使用SuperMicroauthentication的立pipe,而且根本没有任何改进。

我非常渴望在这里find一个解决scheme。 这将从确定确切的原因开始。 我们愿意为能够分析一些垃圾堆并给我们提供更多细节(或者更好的解决scheme)的专家付出不错的奖励。

亲切的问候,

西蒙