也许这是一个愚蠢的问题,但…
我正在和这家公司合作,他们说他们需要获得“许可”才能抓取其他人的网站。 他们有一个Google Search Appliance和一些Google Minis,并希望在其他网站上指向他们以汇总内容。 最终的结果就像是一个有针对性的search引擎。 (所有索引的网站都涉及到一个特定的主题)
他们唯一要做的就是:
他们的意图本质上不是恶意的,而是提供一个单一的网站/资源供人们参考他们的话题。
这个过程是否有违法或腥意?
只要您的抓取符合站点的robots.txt文件,就应该没问题。
searchgoogle的robots.txt会给你很多的信息。
简而言之,这是一个文件,指定爬行者/机器人如何访问网站,允许和禁止的内容,访问速度,一天中的时间等。