nvme设备丢失 – I / O 0 QID 0超时,控制器被禁用

我们有6台Supermicro服务器都是相同的(或非常相似的规格),在过去的两周内,其中一台NVM随机丢弃了一块磁盘,原因是:

[ 66.856719] nvme 0000:03:00.0: I/O 0 QID 0 timeout, disable controller [ 66.957911] nvme 0000:03:00.0: Identify Controller failed (-4) [ 66.957961] nvme 0000:03:00.0: Removing after probe failure status: -5

我们试过了:

  • 交换磁盘
  • 交换NVMe电缆
  • 交换NVMe控制器(主板)
  • 交换背板
  • 考虑到存储子系统的最近更改,从内核4.5.0降级到4.4.2
  • 升级磁盘和主板固件
  • 交换主板

所以它基本上是一个全新的服务器,除了我们没有重新安装 – 为什么? 因为我想了解这个问题,如果重新安装修复它,我们永远不会知道为什么会发生在这台机器上,而不是我们的其他5。

  • 驱动器运行时不报告SMART或nvme-cli错误。
  • 如果驱动器交换到另一个托架,它工作正常,无论驱动器被更换到该托架,然后最终超时/失败。

  • CentOS 7(最新的补丁安装)

  • 内核4.5.0
  • 2个Intel DC3600 NVMe(2.5“FF)
  • 英特尔公司的C610 / X99系列芯片组
  • 完整的lspci -tvv输出: https : lspci -tvv
  • 完整的内核configuration: https : //gist.github.com/sammcj/7d1e79775bf984424b92679d16c015c6

致电Supermicro支持或使用完全不同的服务器。

您已经完成了比大多数人更多的故障排除工作,并确实遵循了您所控制的所有合理步骤。

Supermicro设备相对便宜,不能提供与戴尔或惠普系统相同的打磨水平。 所以,从那些大规模部署Supermicro的人那里拿出来吧… 你可能会有一些失败。