我们有6台Supermicro服务器都是相同的(或非常相似的规格),在过去的两周内,其中一台NVM随机丢弃了一块磁盘,原因是:
[ 66.856719] nvme 0000:03:00.0: I/O 0 QID 0 timeout, disable controller [ 66.957911] nvme 0000:03:00.0: Identify Controller failed (-4) [ 66.957961] nvme 0000:03:00.0: Removing after probe failure status: -5
我们试过了:
所以它基本上是一个全新的服务器,除了我们没有重新安装 – 为什么? 因为我想了解这个问题,如果重新安装修复它,我们永远不会知道为什么会发生在这台机器上,而不是我们的其他5。
如果驱动器交换到另一个托架,它工作正常,无论驱动器被更换到该托架,然后最终超时/失败。
CentOS 7(最新的补丁安装)
lspci -tvv输出: https : lspci -tvv 致电Supermicro支持或使用完全不同的服务器。
您已经完成了比大多数人更多的故障排除工作,并确实遵循了您所控制的所有合理步骤。
Supermicro设备相对便宜,不能提供与戴尔或惠普系统相同的打磨水平。 所以,从那些大规模部署Supermicro的人那里拿出来吧… 你可能会有一些失败。