看我的Apache access.log我看到,抓取工具往往会得到旧版本的页面和文档,如:
119.63.196.86 - - [10/Jun/2011:10:36:31 +0200] "GET /wiki/News?version=14 HTTP/1.1" 200 6073 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
我希望他们不要将?version=x后缀追加到URL中,这样他们只能得到最新的内容。
有没有办法通过robots.txt文件(或我不知道的其他机制?
如果您使用trac开箱,那么这些页面上就会有NOINDEX和NOFOLLOW,因为它们会被抓取,因此不会被索引。