我可以使用Google Appliance / Mini抓取并索引我没有的网站吗?

也许这是一个愚蠢的问题,但…

我正在和这家公司合作,他们说他们需要获得“许可”才能抓取其他人的网站。 他们有一个Google Search Appliance和一些Google Minis,并希望在其他网站上指向他们以汇总内容。 最终的结果就像是一个有针对性的search引擎。 (所有索引的网站都涉及到一个特定的主题)

他们唯一要做的就是:

  1. 从其他网站/域索引内容
  2. 在自己的网站上提供searchfunction,search索引内容(如Google,显示摘要而不是全部内容)
  3. search结果将提供返回到原始内容的链接

他们的意图本质上不是恶意的,而是提供一个单一的网站/资源供人们参考他们的话题。

这个过程是否有违法或腥意?

只要您的抓取符合站点的robots.txt文件,就应该没问题。

searchgoogle的robots.txt会给你很多的信息。

简而言之,这是一个文件,指定爬行者/机器人如何访问网站,允许和禁止的内容,访问速度,一天中的时间等。