Articles of robots.txt

如何在IIS 7.x / 8.x中阻止IIS应用程序或虚拟目录的机器人?

我在我的IIS根目录中使用robots.txt文件来阻止bots (无论如何,尊重robots.txt)。 现在,对于IIS Website ,我有一个IIS application ,它指向不是一个不同的文件path。 我也有自己的文件path的IIS virtual directory 。 应该注意的是,应用程序和虚拟目录path与网站本身的驱动器号不同。 假设网站位于E:\ inetpub \ wwwroot。 该应用程序在F:\ myapp。 而虚拟目录位于F:\ path \ to \ virtualdirectory。 我是否需要在三个位置的每个位置放置一个robots.txt文件,或者我需要做的只是在网站的根目录中放置robots.txt,而应用程序和虚拟目录本质上会从IIS中inheritancerobotx.txt网站? 感谢您的时间。

使用robots.txt禁用抓取工具,让Google Apps网站公开访问?

我想创build一个可公开访问的Google Apps网站 (即,用户无需通过身份validation即可访问内容),同时使用Robots.txt维护策略抓取工具和漫游器排除function 。 有谁知道这是怎么做到的吗?

301redirect或禁止在robots.txt?

我最近要求在ServerFault上redirect301 ,我没有得到一个妥善解决我的问题,但现在我有一个新的想法: 使用robots.txt禁止从我的网站某些URL被“抓取”。 我的问题很简单:在从一个专有技术从自定义CMS迁移到WordPress之后,我们有很多Google在新网站上找不到的URL ,并且转到404页面。 这对我们的PageRank和search是不利的,因为Google仍然认为这些页面是活的。 我们有一个不起作用的URL列表,我试图redirect到好的。 问题是, 他们有两万人 ,没有机会用正则expression式来解决问题。 我们必须做一个一个的301redirect,这是一个任务的地狱。 但是我想知道: 我们能不能将robots.txt中的所有不良url列在“Disallow:”前缀中 ,这样Google就不会为它们编制索引了? 这是一个坏主意吗?

不允许xml robots.txt

Google网站站长常见问题解答表明,这将排除search中的所有xml文件: User-agent: Googlebot Disallow: /*.xml$ 这是否也适用于其他机器人? User-agent: * Disallow: /*.xml$

webcrawler机器人负载testing我的网站,它没有通过testing

我们运行一个商业网站,用户数量几乎相同,只有30个用户。 经常有一个networking爬虫,如谷歌机器人,bing机器人和80legs将使我们的网站停滞不前。 更改robots.txt不会立即生效。 他们无论如何要立即停止80条腿? 它使用不同的IP。

基于主机名的dynamicrobots.txt

有没有办法根据主机名在nginx中换出robots.txt文件? 我目前有www.domain.com和backup.domain.com指向相同的nginx服务器,但我不希望谷歌索引backup.domain.com。

机器人文件的行为

我今天注意到一些奇怪的东西。 如果我去http://www.google.com/robots.txt,IE11会显示我的机器人文件的内容。 但是,如果我去我的网站(仍在开发中)使用相同的浏览器,并指向它robots.txt,IE浏览器询问我是否要打开或保存到磁盘,如果我点击打开,它打开记事本中,而不是浏览器喜欢谷歌的。 是否有什么区别做像谷歌这样的事情(显然有一个不同的文件被提供的方式,所以这两个方法的专业和无线)是什么? 你怎么做到这一点? 我认为AddType / AddHandler与它有关,但我不知道如何去做。 这里是提琴手给我的网站的robots.txt文件: HTTP/1.1 200 OK Date: Thu, 02 Apr 2015 17:16:06 GMT Server: Apache/2.4.9 (Win64) PHP/5.5.12 X-Powered-By: PHP/5.5.12 Content-Disposition: attachment; filename="robots.txt" Content-Length: 33 Keep-Alive: timeout=5, max=100 Connection: Keep-Alive Content-Type: text/plain User-agent: * Disallow: /images/

理想的WordPress的robots.txt?

我浏览网页,试图find托pipe的WordPress博客的理想的robots.txt内容。 我发现了几个选项,例如在这里和这里 。 我认为这对于ServerFault来说是一个很好的问题:对于WordPress上的“简单”博客,最理想的robots.txt是什么? 目前,我在网上的其他地方find了以下的robots.txt文件: User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: /feed Disallow: /comments Disallow: /category/*/* Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /*?* Disallow: /*? Allow: /wp-content/uploads # Google Image User-agent: Googlebot-Image Disallow: Allow: /* # Google AdSense User-agent: Mediapartners-Google* Disallow: Allow: /* […]

如何防止search引擎索引一个特定的url

我有一个我不想索引的url: http://www.mysite.com/moduleA?param=secretkey 所以当我谷歌search“mysite.com”,我不希望上面的链接出现在search结果中。 但是,以下url是公众查看的一部分: www.mysite.com/moduleA www.mysite.com/moduleA?id=12345 www.mysite.com/moduleA/somepage.html 可以这样做吗? 机器人文件可以用于这个?

似乎阻止/我美丽的sef-url-123

我有robots.txt,看起来像这样: User-agent: * Disallow: /system/ Disallow: /admin/ Disallow: /index.php 明显的目标是防止所有丑陋的URL被索引,因为它们都以“/index.php”开头。 但由于某些原因,所有url(例如/ my-beautiful-sef-url-123)都列在Google网站pipe理员工具中的抓取错误下方,并显示“受robots.txt限制的url”。 (当我testing这样的url时,Googlebot和Googlebot-Mobile都会获得允许 。) 任何人都可以帮忙吗?