Google的networking蜘蛛多长时间一次抓取networking?

在对我的网站的HTML进行了一些修改之后的几个小时,我发现Google已经在我的网站上更新了search结果。 互联网非常庞大,Google抓取工具是如何做的? 它不使用太多的带宽?

Google的蜘蛛不断地抓取networking。 他们有多台机器,抓取他们的大量索引,并一直添加新的页面。

原因很快:

  • 他们有大量的机器以荒谬的速度爬行
  • 他们有很多可用的带宽
  • 他们已经有一个巨大的索引页面search,这样可以节省时间寻找新的内容。 他们可以请求以前编入索引的链接并parsing它们以获取新的链接来抓取。
  • 他们已经这么做了很多年了,并且很好地调整了他们的爬行algorithm。 他们继续努力,直到今天,使之更好。
  • PR(PageRank)是一个很大的因素,因此某些网站的索引更为频繁。 如果您的网站拥有较高的PR,则会很快看到更新。 这就是为什么你会经常看到超级用户的问题出现在search结果分钟后。

编辑:

替代文字http://i45.tinypic.com/2w2jup4.png

…还有许多其他因素。

Google拥有丰富的空间和带宽。 你不担心他们! 截至2008年1月,谷歌每天平均sorting20PB 。 20PB(PB)是20,000 TB或2000万GB。 现在,这只是sorting ,这不是他们所有的数据,只是它的一小部分。

在这样的规模下运行实验时出现了一个有趣的问题:在哪里放置1PB的分类数据? 我们正在把它写到48000个硬盘(尽pipe我们没有使用这些硬盘的全部容量),每次我们进行sorting时,我们至less有一个硬盘被破坏了(这在所有的时间内都是不足为奇的testing的数量,涉及的磁盘数量和硬盘的预期寿命)。 为了确保我们保持已分类的petabyte安全,我们要求Google文件系统将每个文件的三个副本写入三个不同的磁盘。

简直难以置信。

我怀疑谷歌使用一些额外的信号来决定重新爬行。

分析或谷歌网站pipe理员工具帐户活动,推特活动,search活动,工具栏活动,铬url完成,也许请求他们的DNS服务。

然后他们需要查看上次更新列表页面时是否需要查看,如果是这样,则需要查找新创build的页面。 站点地图是首选的列表页面( 超级用户有一个 ),然后提供,然后主页,往往列出最近的页面,因此每当另一个页面更新。

Google的抓取频率由很多因素来定义,如PageRank,页面链接以及抓取限制,如URL中的参数数量。

这里有一篇关于如何完成的精彩文章:

一个大型的超文本networkingsearch引擎的parsing