我对robots.txt的精确语法有点模糊,但我试图达到的是:
(基本上,一些拥有大量数据的页面不应该被抓取;而一些贪婪而无用的search引擎,例如Cuil,不应该抓取任何东西)
如果我做这样的事情:
User-agent: * Disallow: /path/page1.aspx Disallow: /path/page2.aspx Disallow: /path/page3.aspx User-agent: twiceler Disallow: /
所有的用户代理都会匹配第一条规则并跳过page1,page2和page3; 再次匹配第二条规则并跳过所有内容?
看起来你的理解比你意识到的要好。 🙂
嗯,取决于爬虫,是否只是在首场比赛的基础上。 IE的重振器可能会首先看到通配符条目,不再进一步检查,所以不会看到Disallow:/