我有一个作为NexentaStor存储单元运行的HP ProLiant DL380 G7服务器 。 服务器有36GB RAM,2个LSI 9211-8i SAS控制器(无SAS扩展器),2个SAS系统驱动器,12个SAS数据驱动器,热备份磁盘,Intel X25-M L2ARCcaching和DDRdrive PCI ZIL加速器。 该系统为多个VMWare主机提供NFS服务。 arrays上还有大约90-100GB的重复数据删除数据。
我遇到了两个突然性能下降的事件,VM guest虚拟机和Nexenta SSH / Web控制台无法访问,需要完全重新启动arrays才能恢复function。 在这两种情况下,都是英特尔X-25M L2ARC固态硬盘失败或“脱机”。 NexentaStor在caching失败时未能提醒我,但在(无响应)控制台屏幕上可以看到一般的ZFS FMA警报。

zpool status输出显示:
pool: vol1 state: ONLINE scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011 config: NAME STATE READ WRITE CKSUM vol1 ONLINE 0 0 0 mirror-0 ONLINE 0 0 0 c8t5000C50031B94409d0 ONLINE 0 0 0 c9t5000C50031BBFE25d0 ONLINE 0 0 0 mirror-1 ONLINE 0 0 0 c10t5000C50031D158FDd0 ONLINE 0 0 0 c11t5000C5002C823045d0 ONLINE 0 0 0 mirror-2 ONLINE 0 0 0 c12t5000C50031D91AD1d0 ONLINE 0 0 0 c2t5000C50031D911B9d0 ONLINE 0 0 0 mirror-3 ONLINE 0 0 0 c13t5000C50031BC293Dd0 ONLINE 0 0 0 c14t5000C50031BD208Dd0 ONLINE 0 0 0 mirror-4 ONLINE 0 0 0 c15t5000C50031BBF6F5d0 ONLINE 0 0 0 c16t5000C50031D8CFADd0 ONLINE 0 0 0 mirror-5 ONLINE 0 0 0 c17t5000C50031BC0E01d0 ONLINE 0 0 0 c18t5000C5002C7CCE41d0 ONLINE 0 0 0 logs c19t0d0 ONLINE 0 0 0 cache c6t5001517959467B45d0 FAULTED 2 542 0 too many errors spares c7t5000C50031CB43D9d0 AVAIL errors: No known data errors
这并没有触发Nexenta内部的任何警报。
我的印象是L2ARC故障不会影响系统。 但在这种情况下,它肯定是罪魁祸首。 我从来没有看到任何build议RAID L2ARC。 完全从服务器上移除坏的SSD让我回到了运行,但是我担心设备故障的影响(也许NexentaStor也没有通知)。
编辑 – 目前最适合L2ARCcaching应用的最佳select SSD是什么?
ZFS不做磁盘I / O,ZFS下面的设备驱动做磁盘I / O。 如果设备没有及时响应,或者在这种情况下会中断扩展器上的所有其他设备,那么ZFS就不可见。 所有ZFS看到的是一个缓慢的I / O。
英特尔X-25M固件存在一个错误,会影响其在重负载下的行为,并可能导致重置风暴。 这个问题影响所有的操作系统,不能在操作系统层解决。 请联系您的硬件供应商进行修复或修复。
如果L2ARC预计会满足读取,那么读取将在那里尝试。 然后ZFS依靠低层驱动程序报告错误。 在这种情况下,根据驱动程序,设备和默认超时设置,在声明I / O失败之前,驱动器将继续重置并重试多达5分钟。 只有在底层驱动程序声明I / O失败后,ZFS才会在池中重试。
NexentaStor的卷检查和磁盘检查运行程序会查找其他错误消息,并通过电子邮件和故障logging提醒您。 磁盘检查运行程序在3.1版本中得到了改进,可以帮助您特别针对SSD中损坏的固件所显示的情况提醒您。
底线:你的硬件有问题,需要修理或更换。
您是否将X25-M SSD连接到底板? Nexenta存在一个已知问题,并通过背板访问L2ARC。 您最好的select是将SSD直接连接到主板上的SATA端口。 确保它configuration为使用AHCI。
如果你在这个服务器上运行任何关键任务,我会切换到SLC SSD(如X25-E或STEC SSD)。 话虽如此,如果不是X25-M,你可能会确定。
埃德,有几个,你可以使用范围从相对合理的价格相当昂贵。 我更喜欢在所有情况下部署SAS SSD,并且在STEC和Pliant上都做得很好。 现在都提供了一个着名的L2ARC设备的MLC驱动器。 尚未testing,但即将推出的是来自希捷SLC SAS 2.0的固态硬盘产品,据传是“不贵”。 敬请关注….
-PB