雅虎AdCrawler重复尝试一些url。 这些url有302个响应代码,所以我想雅虎应该回来再“稍后”再试,但是我的书中“稍后”并不意味着7个具体的url每天应该被打到3000次。
这些url的格式是:
/find/product-abc123?ppcid=yahoo_PPC_Product
查询部分可能是我们的客户添加的东西,但我提到它,以防止任何响铃
现在我们已经禁止了Robots.txt中的AdCrawler。
User-agent: Yahoo!-AdCrawler Disallow: /
如果你有任何想法,类似的经验或想法,我会感激他们。 谢谢。
AdCrawler与Slurp不同,雅虎用它来build立索引。 AdCrawler是:
最近,雅虎! 推出了另一个爬虫(名为“Yahoo!-AdCrawler”),它也将抓取YSM广告客户的login页面。 此抓取工具旨在帮助我们对这些网页进行相关性评估,帮助我们将广告与特定的search查询进行匹配。
它是完全安全的你阻止它,并强烈build议。