硬盘掉落不明原因

我有7个系统运行下面的设置。 不同的磁盘不时脱机,但仔细检查磁盘是好的,没有错误,并至less在一年内完美地工作。 由于这发生在所有的7个系统上,所以我发现不可能有一个单独的部件(例如电缆),而是一些稍微不兼容的部件的组合。

问题是find不兼容性的确切点。

(如果你有一个解决方法,你可以从命令行虚拟重新安置硬盘,那么你可能会回答https://serverfault.com/questions/523315/re-activate-device这被认为是死的 )。

服务器硬件:Dell 1950,Dell R815,Dell R715。

操作系统:

$ uname -a Linux franklin 3.2.0-4-amd64 #1 SMP Debian 3.2.41-2+deb7u2 x86_64 GNU/Linux 

控制器:

 $ lspci |grep 22: 22:00.0 Serial Attached SCSI controller: LSI Logic / Symbios Logic SAS2008 PCI-Express Fusion-MPT SAS-2 [Falcon] (rev 03) $ sas2flash -listall LSI Corporation SAS2 Flash Utility Version 15.00.00.00 (2012.11.06) Copyright (c) 2008-2012 LSI Corporation. All rights reserved Adapter Selected is a LSI SAS: SAS2008(B2) Num Ctlr FW Ver NVDATA x86-BIOS PCI Addr ---------------------------------------------------------------------------- 1 SAS2008(B2) 15.00.00.00 0f.00.00.04 07.29.00.00 00:22:00:00 Finished Processing Commands Successfully. Exiting SAS2Flash. 

带有单个LSI SAS2X36扩展器的SAS / SATA扩展器Supermicro 4U SAS / SATA扩展器背板芯片:

 cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/model SAS2X36 cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/rev 0717 

磁盘:

 $ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/model Hitachi HDS72404 $ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/rev A3B0 

磁盘在一个系统中:

 $ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/model ST3000DM001-9YN1 $ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/rev CC4C 

系统日志:

 sd 5:0:22:0: [sdw] Unhandled error code mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303) sd 5:0:22:0: [sdw] Unhandled error code mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303) sd 5:0:22:0: [sdw] mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303) Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b9 00 00 01 00 00 end_request: I/O error, dev sdw, sector 982694144 sd 5:0:22:0: [sdw] Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b7 00 00 01 00 00 end_request: I/O error, dev sdw, sector 982693632 sd 5:0:22:0: [sdw] Unhandled error code sd 5:0:22:0: [sdw] Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK sd 5:0:22:0: [sdw] CDB: Read(16): sd 5:0:22:0: [sdw] Unhandled error code 88 00 00 00 00 01 43 e2 f2 d0 00 00 00 10 00 00 end_request: I/O error, dev sdw, sector 5433914064 sd 5:0:22:0: [sdw] Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bd 00 00 01 00 00 end_request: I/O error, dev sdw, sector 982695168 sd 5:0:22:0: [sdw] Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK md/raid:md4: Disk failure on sdw, disabling device. md/raid:md4: Operation continuing on 9 devices. scsi 5:0:22:0: [sdw] Unhandled error code scsi 5:0:22:0: [sdw] Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b8 00 00 01 00 00 end_request: I/O error, dev sdw, sector 982693888 scsi 5:0:22:0: [sdw] Unhandled error code scsi 5:0:22:0: [sdw] Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bc 00 00 01 00 00 end_request: I/O error, dev sdw, sector 982694912 mpt2sas1: removing handle(0x0021), sas_addr(0x500304800182694c) 

我们在这里缺less信息。 您build议您在此存储设置中每个服务器有24-45个磁盘。

  • 你使用哪个特定的控制器?
  • 由于磁盘的数量,您可能在外部机箱中有一些驱动器。 请提供正在使用的外部驱动器机箱的品牌/型号。
  • 你使用的是什么特定的驱动器模型? 所有的磁盘桌面级驱动器?
  • 你使用什么文件系统?
  • 描述磁盘和RAID布局。
  • 这是一个问题还是随着时间的推移发展?
  • Supermicro是否涉及这个设置的任何地方?

根据机箱的设置,您可能会遇到SATA超时或总线错误。 这可能会对连接到控制器的所有驱动器产生不良影响 。

另一个问题可能是糟糕的SAS / SATA链路协商。 在一些SAS扩展器中,当1.5Gbps和6.0Gbps的驱动器混合在同一块电路板上的时候,我确实经历过这种情况。

请提供更多信息。