在对我的网站的HTML进行了一些修改之后的几个小时,我发现Google已经在我的网站上更新了search结果。 互联网非常庞大,Google抓取工具是如何做的? 它不使用太多的带宽?
Google的蜘蛛不断地抓取networking。 他们有多台机器,抓取他们的大量索引,并一直添加新的页面。
原因很快:
替代文字http://i45.tinypic.com/2w2jup4.png
…还有许多其他因素。
Google拥有丰富的空间和带宽。 你不担心他们! 截至2008年1月,谷歌每天平均sorting20PB 。 20PB(PB)是20,000 TB或2000万GB。 现在,这只是sorting ,这不是他们所有的数据,只是它的一小部分。
在这样的规模下运行实验时出现了一个有趣的问题:在哪里放置1PB的分类数据? 我们正在把它写到48000个硬盘(尽pipe我们没有使用这些硬盘的全部容量),每次我们进行sorting时,我们至less有一个硬盘被破坏了(这在所有的时间内都是不足为奇的testing的数量,涉及的磁盘数量和硬盘的预期寿命)。 为了确保我们保持已分类的petabyte安全,我们要求Google文件系统将每个文件的三个副本写入三个不同的磁盘。
简直难以置信。
我怀疑谷歌使用一些额外的信号来决定重新爬行。
分析或谷歌网站pipe理员工具帐户活动,推特活动,search活动,工具栏活动,铬url完成,也许请求他们的DNS服务。
然后他们需要查看上次更新列表页面时是否需要查看,如果是这样,则需要查找新创build的页面。 站点地图是首选的列表页面( 超级用户有一个 ),然后提供,然后主页,往往列出最近的页面,因此每当另一个页面更新。
Google的抓取频率由很多因素来定义,如PageRank,页面链接以及抓取限制,如URL中的参数数量。
这里有一篇关于如何完成的精彩文章:
一个大型的超文本networkingsearch引擎的parsing