Intereting Posts

在Windows服务器共享caching 什么是ZFS ACL限制？ Symantec AntiVirus病毒定义文件版本date未更新不能绑定到端口，即使tcpview说它没有被使用非常高的写入IO等待时间如何在Windows 2003中configuration* .subdomain.domain.tld – DNS中的通配符交换机pipe理软件 301redirect自定义链接 mdadm汇编忽略–force？ Raid10硬盘之间的'行动'最小差异 login到交换机的端口当服务器中不存在Alogging时，将请求转发给其他名称服务器为什么ping Google服务器和Google DNS如此之低？我可以运行SQL维护计划随时重build索引吗？ Sun GRID Engine – 提交“偏好强大”机器的作业，而不是较弱的机器我把我的数据库移动到一个新的服务器，但现在用户不能访问新的数据库，我该如何解决这个问题？

robots.txt文件对某些用户代理具有更严格的规则

我对robots.txt的精确语法有点模糊，但我试图达到的是：

告诉所有用户代理不要抓取某些页面
告诉某些用户代理不要抓取任何东西

（基本上，一些拥有大量数据的页面不应该被抓取;而一些贪婪而无用的search引擎，例如Cuil，不应该抓取任何东西）

如果我做这样的事情：

User-agent: * Disallow: /path/page1.aspx Disallow: /path/page2.aspx Disallow: /path/page3.aspx User-agent: twiceler Disallow: /

所有的用户代理都会匹配第一条规则并跳过page1，page2和page3; 再次匹配第二条规则并跳过所有内容？

看起来你的理解比你意识到的要好。 🙂

嗯，取决于爬虫，是否只是在首场比赛的基础上。 IE的重振器可能会首先看到通配符条目，不再进一步检查，所以不会看到Disallow：/