我有一个带有两个存储服务器的小型GlusterFS集群,提供一个复制卷。 每个服务器有2个用于操作系统的SAS磁盘和22个用于实际数据的SATA磁盘作为RAID10,使用带有此configuration的MegaRAID SAS 9280-4i4e: http : //pastebin.com/2xj4401J
连接到这个集群的是一些其他的服务器,运行nginx的本地客户端服务器上存储的文件大小为3-10MB。
现在一个存储服务器有一个300Mbit / s的出站带宽和RAIDarrays的繁忙率在30-40%。 也有一些奇怪的副作用:有时候io-latency突然出现,而且突袭时间超过10秒没有可能。 使用的文件系统是xfs,并且已经调整为匹配RAID条纹大小。
有没有人有一个想法可能是这样一个糟糕的表演arrays的原因? 22 RAID10中的磁盘应该提供更多的吞吐量。
有人向你的硬盘大喊大叫 ? 🙂
更严重的是:在I / O延迟峰值期间是否有大量写操作? 你有没有尝试过使用iotop和/或btrace来查看发生了什么?
也许RAID控制器刷新高速caching,并阻止一切,直到它完成?
如果你能logging一个秒杀,我们会有更多的工作。 无论哪种方式,没有明显的configuration问题,我有理由相信,这可能是一个硬件问题。 我开始更换卡,然后也许磁盘,如果他们在保修期内。