search引擎机器人 – 大量的命中

我已经开始跟踪每个会话开始时在网站上的用户代理string。看看这个月的数据到目前为止，我看到在search引擎机器人不断出现了很多..

Mozilla / 5.0（兼容; Baiduspider / 2.0; + http://www.baidu.com/search/spider.html ）

从9/1/2011到9/13/2011我从这个用户代理logging了2090次点击。从其他search引擎，我跟踪的点击数量低得多…

Mozilla / 5.0（兼容; Yahoo！Slurp; http://help.yahoo.com/help/us/ysearch/slurp ） – 353

Mozilla / 5.0（兼容; Googlebot / 2.1; + http://www.google.com/bot.html ） – 175

Mozilla / 5.0（兼容; bingbot / 2.0; + http://www.bing.com/bingbot.htm ） – 110

www.baidu.com似乎是Google的中文版本。有没有一种方法来扼杀他们的机器人？我不介意他们把我们编入索引……其实这可能是一件好事，因为我们有大量的亚洲人使用这个网站，但他们似乎正在做更多的事情。

你想扼杀机器人，但你不知道为什么你想这样做。
您是否遇到性能影响？ stream量是否超过带宽或转移阈值？

限制一个机器人只是因为“是一种浪费的努力 – 如果它不伤害你，我build议你不要pipe它。

如果导致问题，则可以使用sitemaps.xml来限制bot抓取的频率或robots.txt指令来限制抓取速度。请注意，这些都可以被忽略，这只会让你阻止用户代理使用（例如）一个Apache mod_rewrite规则 – 这也会导致你不被索引…

我昨天写了这个回复给类似的问题： httpd.conf中的用户代理string阻塞无效

基本上这样说：

如果您不希望特定的用户代理（机器人）为您编制索引，请执行这些步骤。如果您不希望任何机器人为您编制索引，请执行[these2]步骤。

它使用httpd.conf文件或更简单的.htaccess文件并设置一些重写规则。希望对你有用。至于限制他们可以索引你的时间量，你需要（如谷歌）certificate你自己的网站，然后进入他们的“网站pipe理员工具”，并select非常慢的索引率。但是我的意见是：

<2-cents> Unless the bots slow your server down, let it be. They don't hurt unless they are "bad bots" and access sensitive data. </2-cents>

祝你好运。