我有一个服务器与ESXi 5和iSCSI连接的networking存储(4x1Tb Raid-Z的freenas)。 这两台机器通过千兆以太网相互连接,两者之间有一个procurve交换机。
过了一段时间,如果我有很多(4-5或更多)vms运行,他们开始得到不响应(在发生任何事情之前的长时间延迟)。 我们试图找出背后的原因。
今天我们看了一下esxtop,发现那个iSCSI LUN的DAVG保持在70-80。 我读到+30是至关重要的!
什么可能导致那么高的响应时间?
正如你可能已经知道,DAVG是指磁盘延迟,是的,大于30毫秒通常会给你一个明显的性能和响应性下降。 延迟可能是由许多问题引起的,但是首先您的磁盘必须能够处理您投入的IO负载。
IO负载不仅指IO每秒的数量(IOPS),还指模式 。 随机(模式)I / O几乎是您对虚拟化服务器的期望,所以您的磁盘configuration需要从随机I / Oangular度来做好。 不幸的是,RAID-Z不适合这个账单。 据甲骨文 :
随机input的情况在考虑RAID-Z时需要特别注意。
实际上,作为第一个近似值,就提供的随机inputIOPS而言,N盘RAID-Z组将performance为单个设备。 因此,每个容量为200-IOPS的10个磁盘组设备将全局充当具有200-IOPS能力的RAID-Z组。 这是为了实现正确的数据保护所需付出的代价,而不会产生与镜像相关的2X块开销。
Oracle在这里说,一个RAID-Z集合可以处理与集合中单个磁盘相同数量的随机IOPS。 一个7.2K磁盘可以做大约80 IOPS(这可能是一个慷慨的数字,这取决于你问谁),所以这意味着在RAID-Z你的整个arrays只能做80个随机IOPS。 在less量的IOPS上运行5-7台服务器是一个可怕的performance。
如果您将4个驱动器configuration为RAID-10集合,则会看到更好的性能。 如果您需要超过2TB的RAW容量(这是您在RAID-10中获得的),请使用RAID-5。 在这种情况下,或者会给你比RAID-Z更好的随机I / O性能。