我已经开始跟踪每个会话开始时在网站上的用户代理string。 看看这个月的数据到目前为止,我看到在search引擎机器人不断出现了很多..
Mozilla / 5.0(兼容; Baiduspider / 2.0; + http://www.baidu.com/search/spider.html )
从9/1/2011到9/13/2011我从这个用户代理logging了2090次点击。 从其他search引擎,我跟踪的点击数量低得多…
Mozilla / 5.0(兼容; Yahoo!Slurp; http://help.yahoo.com/help/us/ysearch/slurp ) – 353
Mozilla / 5.0(兼容; Googlebot / 2.1; + http://www.google.com/bot.html ) – 175
Mozilla / 5.0(兼容; bingbot / 2.0; + http://www.bing.com/bingbot.htm ) – 110
www.baidu.com似乎是Google的中文版本。 有没有一种方法来扼杀他们的机器人? 我不介意他们把我们编入索引……其实这可能是一件好事,因为我们有大量的亚洲人使用这个网站,但他们似乎正在做更多的事情。
你想扼杀机器人,但你不知道为什么你想这样做。
您是否遇到性能影响? stream量是否超过带宽或转移阈值?
限制一个机器人只是因为“是一种浪费的努力 – 如果它不伤害你,我build议你不要pipe它。
如果导致问题,则可以使用sitemaps.xml来限制bot抓取的频率或robots.txt指令来限制抓取速度。 请注意,这些都可以被忽略,这只会让你阻止用户代理使用(例如)一个Apache mod_rewrite规则 – 这也会导致你不被索引…
我昨天写了这个回复给类似的问题: httpd.conf中的用户代理string阻塞无效
基本上这样说:
如果您不希望特定的用户代理(机器人)为您编制索引,请执行这些步骤。 如果您不希望任何机器人为您编制索引,请执行[these2]步骤。
它使用httpd.conf文件或更简单的.htaccess文件并设置一些重写规则。 希望对你有用。 至于限制他们可以索引你的时间量,你需要(如谷歌)certificate你自己的网站,然后进入他们的“网站pipe理员工具”,并select非常慢的索引率。 但是我的意见是:
<2-cents> Unless the bots slow your server down, let it be. They don't hurt unless they are "bad bots" and access sensitive data. </2-cents>
祝你好运。