用R来处理系统数据?

我经常听到关于R语言对数据进行统计分析的好处,但看起来好像学习曲线是陡峭的。 我有兴趣知道是否有人使用R来压缩有关系统性能和可伸缩性的数据,以便比从监视系统获得的基本时间序列更深入地了解行为。 R给你系统pipe理员什么价值?

我们将R看作一种常见的分析,并报告来自多个性能testing工具的数据的后端,但不幸的是,我们没有足够的时间为这个任务实现R,因为我们只是忙于性能testing服务器…只是不够停机时间。

至less从性能testing分析的angular度来看,这是我对R的看法

  • 我们需要在涉及性能testing的数十台主机上关联包含响应时间和系统监控数据的数据。 使用R使我们能够从多个不同数据源以多种格式导入数据,以用于合并分析集
  • 为了testing我们需要重复性,否则我们正在从事的是“试验”而不是“testing”。 R将有助于我们更好地了解基于样本数量的数据集的质量,并且使我们能够更好地理解当我们连续运行testing以检查一致性时,统计学上接近我们的testing的方式。

  • 所有开源性能testing工具中的薄弱环节都是分析和将响应时间事件增加与其他系统度量标准增加或减less相关联的能力。 R应该允许我们提供开源testing工具的相同级别的分析能力,我们可以通过最好的商业工具获得这些工具;对于商业工具,它应该让我们更深入地了解样本集的本质,可以计算样品频率曲线下的面积,并与最佳曲线(具有低标准偏差的钟形曲线的一半)相比得到δ。 这个三angular洲我们将用来指导我们的反馈发展在哪里花费时间和精力修复
  • 市场上的所有工具与通常写为SLA的强健性能要求(即,在Z的负载下的响应时间“x,y%”)相比较差。 R将使我们能够更好地报告需求/ SLA目标,尤其是在根据负载情况移动SLA时。
  • 对于技术基准testing,R将使我们能够更好地比较当前testing和以前testing对不同构build的输出,从一个testing到下一个testing发现统计上显着的性能偏差,以报告开发

目前在testing服务器分析方面,我们使用在我们的testing期间收集的监控指标的组合,使用Microsoft logparser进行日志分析以及基于输出PDF的LaTeX / PSTRICKS的报告引擎。 有了R,我们希望转向更加结构化的基于规则的结果分析,我们应该能够高度自动化,现在我们需要在房子的分析方面进行大量的人工干预,以便观察结果并格式化输出结果。

R是一种编程语言,与其他优点和缺点一样。 优势在于实现统计方法的深度 – 例如,如果您想要将系统负载适应广义的自回归条件异方差(我不是这样做的)时间序列模型,您可以。 在Python或Perl中可能会有这样的实现,但我怀疑它是广泛使用的还是经过testing的。

对我来说,它的弱点是编程语言本身 – 在地方相当不规则和古怪。 充满了陷阱。 如果你以前从来没有使用过编程语言,那么如果你是任何当前语言(Python,Perl,C(++),VB?)的合格程序员,你可能会讨厌它。

如果统计技术和graphics存在你喜欢的语言select,那么我会去的。 如果你可以用你喜欢的语言很容易地实现它们,我会考虑这样做。 如果您需要其他编程语言中不存在的尖端统计信息,请使用R.