DL180 G6 – ESXI 6.0 – P410 – 无法访问卷问题

我们有一个带有P410 RAID卡的DL180 G6服务器。 服务器有以下三个RAIDarrays。

4x2TB – RAID 10

4x2TB – RAID 10

2x2TB – RAID 1

2x2TB HD被configuration为三个arrays的热备用。

以下是ESXCLI的相关输出

插槽1中的Smart Array P410

Bus Interface: PCI Slot: 1 Serial Number: PACCR9VYJKGQ Cache Serial Number: PAAVP9VYJCYN RAID 6 (ADG) Status: Enabled Controller Status: OK Hardware Revision: C Firmware Version: 2.72 Rebuild Priority: Medium Expand Priority: Medium Surface Scan Delay: 15 secs Surface Scan Mode: Idle Parallel Surface Scan Supported: No Queue Depth: Automatic Monitor and Performance Delay: 60 min Elevator Sort: Enabled Degraded Performance Optimization: Disabled Inconsistency Repair Policy: Disabled Wait for Cache Room: Disabled Surface Analysis Inconsistency Notification: Disabled Post Prompt Timeout: 0 secs Cache Board Present: True Cache Status: OK Cache Ratio: 25% Read / 75% Write Drive Write Cache: Disabled Total Cache Size: 512 MB Total Cache Memory Available: 400 MB No-Battery Write Cache: Disabled Cache Backup Power Source: Batteries Battery/Capacitor Count: 1 Battery/Capacitor Status: OK SATA NCQ Supported: True Number of Ports: 2 Internal only Driver Name: HP HPSA Driver Version: 6.0.0 PCI Address (Domain:Bus:Device.Function): 0000:06:00.0 Host Serial Number: USE626N2XD Sanitize Erase Supported: False Primary Boot Volume: None Secondary Boot Volume: None Secondary Boot Volume: None 

arraysA(SATA,未使用的空间:0 MB)

  logicaldrive 1 (3.6 TB, RAID 1+0, OK) physicaldrive 1I:1:9 (port 1I:box 1:bay 9, SATA, 2 TB, OK) physicaldrive 1I:1:10 (port 1I:box 1:bay 10, SATA, 2 TB, OK) physicaldrive 1I:1:11 (port 1I:box 1:bay 11, SATA, 2 TB, OK) physicaldrive 1I:1:12 (port 1I:box 1:bay 12, SATA, 2 TB, OK) physicaldrive 1I:1:5 (port 1I:box 1:bay 5, SATA, 2 TB, OK, spare) physicaldrive 1I:1:6 (port 1I:box 1:bay 6, SATA, 2 TB, OK, spare) 

arraysB(SATA,未使用空间:0 MB)

  logicaldrive 2 (3.6 TB, RAID 1+0, OK) physicaldrive 1I:1:1 (port 1I:box 1:bay 1, SATA, 2 TB, OK) physicaldrive 1I:1:2 (port 1I:box 1:bay 2, SATA, 2 TB, OK) physicaldrive 1I:1:3 (port 1I:box 1:bay 3, SATA, 2 TB, OK) physicaldrive 1I:1:4 (port 1I:box 1:bay 4, SATA, 2 TB, OK) physicaldrive 1I:1:5 (port 1I:box 1:bay 5, SATA, 2 TB, OK, spare) physicaldrive 1I:1:6 (port 1I:box 1:bay 6, SATA, 2 TB, OK, spare) 

arraysC(SATA,未使用的空间:0 MB)

  logicaldrive 3 (1.8 TB, RAID 1, OK) physicaldrive 1I:1:7 (port 1I:box 1:bay 7, SATA, 2 TB, OK) physicaldrive 1I:1:8 (port 1I:box 1:bay 8, SATA, 2 TB, OK) physicaldrive 1I:1:5 (port 1I:box 1:bay 5, SATA, 2 TB, OK, spare) physicaldrive 1I:1:6 (port 1I:box 1:bay 6, SATA, 2 TB, OK, spare) 

现在在ESXI,我们不时得到以下错误。

由于连接问题,无法访问卷5456cb3e-4fbdb59c-a37a-d8d385644ec0(datastore2)。 恢复尝试正在进行中

请记住,它正在同时影响所有三个arrays,并在几秒钟内,所有三个arrays恢复。 根据理解,所有驱动器都连接到P410 RAID卡上的一个端口。 你认为使用这两个端口可以提高性能,并可能消除这个反复出现的问题吗?

我们已经尝试过所有的软件解决scheme,包括更新固件(更新到6.64)。 什么可以是其他的select?

更新1

如上所述,两个备用驱动器被configuration为所有三个arrays的备件。 我从所有的arrays中删除了大约15分钟的备件,错误停止了。 现在我已经为第一个数组configuration了第一个备用数据,为第二个数组configuration了第二个备用数据库,以查看是否再次出现错误。

更新2

重新连接备件导致错误返回并影响所有三个数组。 所以,我正在逐一删除备件,以进一步解决这个问题。 这可能是这里描述的一个已知问题: http : //community.hpe.com/t5/ProLiant-Servers-ML-DL-SL/ESXi5x-HPSA-P410i-WARNING-LinScsi-SCSILinuxAbortCommands-1843/td-p/6818369 。 手指交叉。

在问题中发布的两个更新和进一步的故障排除,使我们能够真正解决问题。 我们发现这与P410 RAID卡的ESXI驱动有关。 我们降级到版本.60的驱动程序可从http://h20564.www2.hpe.com/hpsc/swd/public/detail?swItemId=MTX_d18033ac346f468c92062ce127和问题已解决。

请记住,最近的驱动程序都没有工作,包括版本.114,.116和最近发布的.118。 所以这是唯一的软件解决scheme,除非你的问题与用户@ewwhite描述的硬件相关。

请记住,只有在DL180G6服务器中使用带有P410卡的备用驱动器时才会出现此问题。 我也看到了与其他惠普服务器发生的post,因此您可能会在这些服务器上尝试使用.60版本的驱动程序,以查看是否可以解决您的问题。

在面对这个问题时,您可能会看到磁盘延迟的周期性峰值,而服务器上没有任何相应的读取/写入负载,这可以通过以下图片更好地解释:

周期性延迟峰值

在上面的图片中,红点表示备用时的周期性尖峰。 绿色的圆点表示备件被移除时的时间。

如上图所示,延迟尖峰与任何相应的读取/写入负载无关,并且是周期性的。 在我们的情况下,这些情况恰好相隔五分钟。 一旦备件被删除,尖峰停止。

要降级到驱动程序的.60版本,请在正常closures虚拟机之后将机器置于维护模式,然后执行以下命令

 cd /tmp wget http://ftp.hp.com/pub/softlib2/software1/pubsw-linux/p964549618/v97400/scsi-hpsa-5.5.0.60-1OEM.550.0.0.1331820.x86_64.vib esxcli software vib install -v /tmp/scsi-hpsa-5.5.0.60-1OEM.550.0.0.1331820.x86_64.vib 

之后重新启动您的服务器。 希望这有助于某人。 当惠普发布稳定版本的P410 HPSA驱动程序时,我将更新这个答案,这不会引起备用驱动器的问题。

这可能是背板或背板扩展器问题。 有一点可能是电缆。 可能还有 RAID控制器。

您使用的DL180 G6可能是一个12-bay 3.5英寸单元,通过一条4通道SAS SFF-8087电缆连接到Smart Array P410。

升级固件是你应该做的第一件事情。 自更新控制器固件后,是否遇到同样的问题? 您可能还想要做好磁盘的固件。

但是看到这个服务器的devise完全取决于SAS背板,而且所有的磁盘都在同一时间受到影响,您正在考虑一个可能需要维修或更换的连接问题。