在50个SuperMicro机器上发生BSOD 0x09c

对于一个项目，我们有50台服务器都配有（通常）相同的硬件。我们这里的问题非常严重，发生在所有机器上。尽pipe做了很多努力，联系制造商和软件开发人员，每个人都指向彼此，甚至拒绝给我一个线索。

首先让我描述一下设置。这是“servergrade”硬件。对于我的第一次经历，servergrade是我生命中最大的失望。

SuperMicro X10SDV-8C + -LN2F
英特尔至强D-1540（embedded在主板上）
定制devise的1U机箱或SuperMicro原装机箱
480瓦服务器PSU或200瓦SuperMicro原始PSU
三星Evo 850 500 GB SSD
32 GB DDR4-2133 ECC或非ECC（但不在同一台服务器上混合使用）
华硕GT730 4GB DDR3 GPU
GPU安装了一个PCIe转接卡（不是色带），来自中国或SuperMicro的原始名称

在系统上运行 – Windows Server 2012 R2 Enterprise – VMWare Workstation 12 – 虚拟机运行GPU密集型任务 – 该系统是现货，完全没有超频/低频

症状 – 随机BSOD 0x09c（aka Machine_Check_Exception） – 随机在有时系统运行一个星期没有问题，有时在10分钟后崩溃，但大多数运行几个小时。

已经尝试/检查 – BIOS更新到最新版本（我现在认为，这改善了系统稳定的时间，但可能是随机的 – Windows更新到最新版本 – VMWare更新到最新版本 – 交换所有的组件，并尝试了各种不同的select，甚至尝试了桌面ATX PSU和M.2固态硬盘 – 从零开始安装所有系统与Ubuntu。我不熟悉Linux，从来没有见过一个Linux BSOD，我还没有服务器系统是没有头的，我在DC上试了这个结果：系统会挂起，重新启动后，Linux报告XORG崩溃（与GPU有关） – 将BIOS中的GPU设置更改为4G以上，其余的BIOS默认为出厂默认设置。

还提供信息： – 系统位于数据中心。温度，空气，功率和networking都是最佳的。 – 温度远远低于工厂最大值 – 我们在桌面电脑上运行完全相同的软件（使用桌面硬件）。这些系统每个月可以运行100台PC。 – 我已经联系了VMWare，这是一个硬件问题 – 我已经联系了SuperMicro，除了一些事情之外他们什么也没说，已经尝试过，而且这也可能是一个软件问题。

我们在这里绝望。我们幸运地运行的应用程序是多余的。如果一台服务器及其上的虚拟机掉线，这不是一个问题，其他服务器将在5分钟内接pipe负载，但是按照这个速度，我需要整天在线重启服务器。

我有一个很大的硬件知识，但是这已经过去了，我一整天都在search一个多月，尝试各种各样的事情。事实上，这些主板与主机供应商大规模使用，让我怀疑自己的主板是好的。这肯定不是RMA的特定硬件问题，因为所有50个主板都有相同的症状。唯一与我们不同的是GPU。这与Linux实验的结合使我怀疑这是PCIe通道上的一些东西。 GPU本身在桌面主板上是稳定的。尽pipe它的内存容量很大，但它却是一个小型的GPU，并没有耗费太多的电力。我会怀疑中国的立pipe卡，但是我们也再次使用SuperMicroauthentication的立pipe，而且根本没有任何改进。

我非常渴望在这里find一个解决scheme。这将从确定确切的原因开始。我们愿意为能够分析一些垃圾堆并给我们提供更多细节（或者更好的解决scheme）的专家付出不错的奖励。

亲切的问候，

西蒙