SAN性能瓶颈故障排除工具

排除SAN性能瓶颈的最佳工具是什么?

很多取决于你玩的硬件。 瓶颈可能来自各种来源:

  • 基于主机的瓶颈有时,服务器不能足够快地铲除I / O块。 为此,您需要使用您的操作系统(或应用程序)必须诊断的任何性能指标。
  • 基于交换matrix的瓶颈 Brocade交换机在便捷的图表和实际的编号中都有性能指标。 以下这些可以说明您遇到的问题,可能是饱和的ISL。 如果你有能力使用它,SMI-S应该帮助你。
  • arrays瓶颈这些可以有多种风格,如饱和控制器,过度劳累的磁盘组等。 像交换机一样,较新的arrays应该支持SMI-S来跟踪事情。

对不起,这是如此以Windows为中心,但PAL(日志性能分析)工具 – http://www.codeplex.com/PAL对于识别SAN设置的问题很有用,尽pipe您可能需要花费相当长的时间.blg性能计数器日志。 希望这可以帮助。

您select的工具取决于您的硬件平台。 在任何情况下,瓶颈都会体现在您架构中的三点之一:

  1. 主办
  2. 交换结构
  3. 存储arrays

您将需要一个能够监视这些组件的工具(或多个工具)。 您可能希望采用最佳策略,并使用3种不同的工具,或者您可能更喜欢“指环王”方法,并select一个“统治所有人”的工具。 无论什么对你有用。 首先联系您的供应商,看看哪些工具可用于您的设备。 您应该能够开始在您的I / O链的每个点收集指标,这将使您能够确定需要集中精力的地方。

监视服务器上的磁盘队列长度:

  • 在Windows上的perfmon / scom
  • sar on unix
  • VMware上的Virtual Center / esxtop

如果您想要一个一体化的企业级解决scheme,请参阅IBM的TPC for Disk / Fabric。 您可以从一个界面监控SAN的任何组件(支持SMI-S以及其他标准),并能够查看或查询历史数据。

如果这不是一个选项,您可以查询各种SAN设备的统计信息,并设置某种RRD监视function来描绘性能并识别瓶颈。

大多数磁盘子系统和交换机都会以实时图表的forms进行某种内置的性能监视 – 请尝试查看这些内容。

(免责声明:我公司出售TPC)

您可以使用HP的Storage Essentials。 他们有一个性能模块,软件可以从服务器分析到SAN。 在服务器端的分析,我认为只与HP服务器工作。

好问题,

对于EMC的主要存储平台:Workload Analyzer适用于EMC Symmetrix。 该工具非常强大,是EMC ControlCenter系列的一部分。 对于CLARiiON和Celerraarrays,Navi Analyzer可以提供类似的性能数据。 该工具在数组级别启用。 对于SAN性能,Brocade和Cisco提供的工具可以提供帮助(光纤pipe理器或Connetrix Manager / DFCM)。 另外,如果涉及远程复制,则可能需要联网工具。 如果您需要SAN空间的详细指导,请随时联系EMC销售专员或EMC服务专家。

收集数据。 所有的。 每时每刻 :)

为了解决瓶颈问题,通常需要能够查看交换机的各个队列深度和延迟(由启动器,目标,IT或ITL分解),以及所有交换机端口上的B2B信息和链路事件(LR,C3D) -宽。

我每天和不同的公司一起工作。 我倾向于发现诸如具有巨大队列深度的旧服务器,大量交换,less数CRC来弱化链路,以及突发负载,以使SAN似乎能够工作,除了那些“消失”的罕见情况之外。 通过全面检查减速迹象,并“放大”这些受影响的链接,查看需求是否过度,或者该服务器的利用率,B2B信息和/或其他数据之间的相关性,我们可以看到一些最可能的犯罪嫌疑人。

我们使用特定的工具收集这些数据并显示,但是您可以收集来自这些不同来源的延迟,需求和事件。 我不想跳过一个5年前没有回答的广告问题。 如果你想要的细节和名称下降,评论回来。

关键是你不会知道要看什么数据,直到它发生。 所以收集一切。 事后研究越多,就越有机会了解发生的事情,以及如何避免再次发生。

通常情况下,如果存在SAN性能问题,现实的解决scheme就是解决迫使您首先购买难以诊断和维护SAN的政治问题。 将HP DL380 G5replace为带有两个带有512MB高速caching的控制器和每个控制器在RAID 1 + 0(或者每个控制器可能是RAID 5)中的4 * 146GB 15KRPM驱动器的HP DL380 G5。 分割两个RAID组。 在软件中添加4个320GB FusionIO PCI-E SSD卡,RAID 1 + 0。

整体解决scheme比任何SAN都快,并且比大多数系统需要的存储空间更大。

这个系统中没有控制器级的冗余。 购买两台相同的服务器,用软件镜像数据库,或者在两个控制器之间用软件镜像,以获得与SAN相似(更好,更好)可靠性的解决scheme。