在尊重robot.txt的同时,我需要多less硬盘空间来caching网页?

我想尝试创build一个networking爬虫。 我将开始索引一些中等大小的网站,比如Stack Overflow或者Smashing Magazine。 如果有效,我想开始抓取整个networking。 我会尊重robot.txts。 我将所有的html,pdf,word,excel,powerpoint,keynote等文件保存在MySQL数据库中(不是exes,dmgs等等,只是文件)。 接下来,我将有第二张包含所有重复和描述的表格,以及一个包含单词的表格以及在哪个页面上查找这些单词(又名索引)。

你认为我需要保存所有页面多less硬盘空间? 低至1TB还是10TB左右? 也许30? 1000?

谢谢

互联网存档确实像您提到的那样对networking进行索引,但只保留网站,而不是我所知的文件。 他们确实保留旧版网站的索引,所以他们对空间的需求可能会更大。 在他们的常见问题中,他们谈论了大约2PB的任务( http://www.archive.org/about/faqs.php#9 )和大约数百台Linux服务器,每个服务器大约有1TB的数据。 这应该是一些数字,这应该给你第一印象。

在2008年,Google的索引量为1,000,000,000,000页,如果一个网页的平均值为1Ko,那么就是1000To
平均1KK的标准页面只是一个非常低的估计..有PDF的巨大的规模…

祝你好运

我怀疑一个索引本身就会平均每页运行一个KiloByte,当你包含描述的时候等等。那里有很多页面。