在我的具体情况下,我正在与网站合作,但是这个问题比这个更普遍。 我正在寻找的东西(我认为)就像一个公式。
情况是我已经完成了负载testing来确定服务器的中断点。 我知道,比如说,每秒100次点击会导致服务器超载并且执行不可接受。 把这个数字外推到360,000点/小时(100×60×60)是微不足道的。
当我从市场营销中得到问题时,例如“我们下一次的广告活动,我们可以处理多less访问者”,这个问题就出现了。他们使用的数字是“200万人会看到我们的广告。 根据以往的经验,我们知道这些人中约有10%会点击浏览,所以有20万访问者将访问该网站。 我们可以处理吗?“如果这20万名访问者在一个小时内均匀分布,上面的数字告诉我们,服务器可以处理正常的负载。 但是如果游客在一个小时内仍然散布,除非大多数游客在第一个15分钟内到达网站? 该站点将超载(100×60×15 <200,000 / 2)。
答案显然取决于点击的分布。 不幸的是,我没有那些过去的数据。 那么频谱两端网站的典型分布是什么(分布均匀的网站和分布密集的网站)呢? 如果你不知道,那就好了,因为我可以在一个单独的问题中重新提出这个问题。 更重要的是:
假设我知道分布是什么,我该如何运用这些知识来确定给定间隔内的最大访问者数量,基于最大点击数/秒?
到现在为止,我认为一个访问者意味着一个命中。 实际上,每个访问者都会在网站上进行一次或多次访问。 考虑到这一点,我可以简单地采取点击/访问者的平均值,然后相应地划分? 或者我必须考虑到每个访问者的页面浏览量分布(例如,90%的访问者点击了一页,5%浏览了两页,5%浏览了两页以上)?
作为最后的考虑,这一切都涉及大量的猜测。 这个build模(理论上)会给我们一个最大的数字,但是在通过这个数字之前,你有多less数量呢? 你对expression结果的不确定性有什么想法?
这不是猜测,而是主要关于统计。 这就是为什么在类似的情况下做一个没有数据的预测是非常困难的。 点击的分布将遵循某种曲线 – 要知道您的系统是否可以处理负载,您需要查看曲线的顶点并将其与您的极限进行比较,同时考虑到您需要某种“安全区“,以防估计错误。 确定安全区域的“工程”方法是将最大数量和过度工程devise为至less2倍。如果系统故障将导致非常高的成本,则需要调整过度工程因素,或者更多恰恰相反,如果过度工程的成本比失败的成本要小。
点击率/访问者是网站或应用程序devise的函数,因此理论上可以计算。 但是如果网站具有相当大的复杂性,统计方法在这里也将变得简单得多。