nvme设备丢失 – I / O 0 QID 0超时，控制器被禁用

我们有6台Supermicro服务器都是相同的（或非常相似的规格），在过去的两周内，其中一台NVM随机丢弃了一块磁盘，原因是：

[ 66.856719] nvme 0000:03:00.0: I/O 0 QID 0 timeout, disable controller [ 66.957911] nvme 0000:03:00.0: Identify Controller failed (-4) [ 66.957961] nvme 0000:03:00.0: Removing after probe failure status: -5

我们试过了：

交换磁盘
交换NVMe电缆
交换NVMe控制器（主板）
交换背板
考虑到存储子系统的最近更改，从内核4.5.0降级到4.4.2
升级磁盘和主板固件
交换主板

所以它基本上是一个全新的服务器，除了我们没有重新安装 – 为什么？因为我想了解这个问题，如果重新安装修复它，我们永远不会知道为什么会发生在这台机器上，而不是我们的其他5。

驱动器运行时不报告SMART或nvme-cli错误。
如果驱动器交换到另一个托架，它工作正常，无论驱动器被更换到该托架，然后最终超时/失败。
CentOS 7（最新的补丁安装）
内核4.5.0
2个Intel DC3600 NVMe（2.5“FF）
英特尔公司的C610 / X99系列芯片组
完整的lspci -tvv输出： https ： lspci -tvv
完整的内核configuration： https ： //gist.github.com/sammcj/7d1e79775bf984424b92679d16c015c6

致电Supermicro支持或使用完全不同的服务器。

您已经完成了比大多数人更多的故障排除工作，并确实遵循了您所控制的所有合理步骤。

Supermicro设备相对便宜，不能提供与戴尔或惠普系统相同的打磨水平。所以，从那些大规模部署Supermicro的人那里拿出来吧… 你可能会有一些失败。