可怕的表演RAID

我有一个带有两个存储服务器的小型GlusterFS集群，提供一个复制卷。每个服务器有2个用于操作系统的SAS磁盘和22个用于实际数据的SATA磁盘作为RAID10，使用带有此configuration的MegaRAID SAS 9280-4i4e： http : //pastebin.com/2xj4401J

连接到这个集群的是一些其他的服务器，运行nginx的本地客户端服务器上存储的文件大小为3-10MB。

现在一个存储服务器有一个300Mbit / s的出站带宽和RAIDarrays的繁忙率在30-40％。也有一些奇怪的副作用：有时候io-latency突然出现，而且突袭时间超过10秒没有可能。使用的文件系统是xfs，并且已经调整为匹配RAID条纹大小。

有没有人有一个想法可能是这样一个糟糕的表演arrays的原因？ 22 RAID10中的磁盘应该提供更多的吞吐量。

有人向你的硬盘大喊大叫？ 🙂

更严重的是：在I / O延迟峰值期间是否有大量写操作？你有没有尝试过使用iotop和/或btrace来查看发生了什么？

也许RAID控制器刷新高速caching，并阻止一切，直到它完成？

如果你能logging一个秒杀，我们会有更多的工作。无论哪种方式，没有明显的configuration问题，我有理由相信，这可能是一个硬件问题。我开始更换卡，然后也许磁盘，如果他们在保修期内。