robots.txt文件对某些用户代理具有更严格的规则

我对robots.txt的精确语法有点模糊,但我试图达到的是:

  • 告诉所有用户代理不要抓取某些页面
  • 告诉某些用户代理不要抓取任何东西

(基本上,一些拥有大量数据的页面不应该被抓取;而一些贪婪而无用的search引擎,例如Cuil,不应该抓取任何东西)

如果我做这样的事情:

User-agent: * Disallow: /path/page1.aspx Disallow: /path/page2.aspx Disallow: /path/page3.aspx User-agent: twiceler Disallow: / 

所有的用户代理都会匹配第一条规则并跳过page1,page2和page3; 再次匹配第二条规则并跳过所有内容?

看起来你的理解比你意识到的要好。 🙂

嗯,取决于爬虫,是否只是在首场比赛的基础上。 IE的重振器可能会首先看到通配符条目,不再进一步检查,所以不会看到Disallow:/