如果网站的根目录中缺lessrobots.txt文件,那么事情如何处理为:
根据我的理论,这在逻辑上应该是第二个。 我提到这个问题 。
robots.txt文件的目的是使抓取工具不在您网站的某些部分。 没有人应该导致您的所有内容被索引。
从这个Meta问题的第一个评论意味着robots.txt文件存在,但无法访问(不pipe什么原因),而不是根本就没有。 这可能会导致networking爬虫一些问题,但这是猜测。
我的博客上没有robots.txt (自行托pipe的Wordpress安装),并已编入索引。
Robots.txt是search引擎中的一个严格的自愿惯例; 他们可以自由地忽略它,或以任何他们select的方式实施它。 这就是说,除了偶尔的蜘蛛寻找电子邮件地址或类似的东西,他们几乎都尊重它。 它的格式和逻辑非常非常简单,默认的规则是允许的(因为你只能禁止 )。 没有robots.txt的网站将被完全索引。
在我注册的几十个域名中,我还没有robots.txt,有些早在1994年就有,而且从来没有把它们放到google / yahoo等等问题上。
即使我的个人网站每天从谷歌获得150-200用户,并没有一个robots.txt文件。
(在回答问题之间爱三分钟停顿的要求,接下来我会得到机器人validation码,有时候不值得有帮助。)
robots.txt是完全可选的。 如果你有一个,符合标准的抓取工具会尊重它,如果你没有,那么在HTML-META元素( 维基百科 )中不被禁止的东西是可以抓取的。
网站将被索引而没有限制。 蜘蛛会追随他们发现的任何东西。 我不认为你想要那样。 像百度这样的蜘蛛可能会非常激进。 它甚至可以评估JavaScript代码甚至URL。
这里是详细的信息。 http://www.robotstxt.org/orig.html
PS。 你的networking服务器也会有很多404日志。 阅读日志时也是不利的。 &不要忘记把favicon.ico文件。 这是所有浏览器在每一页上都要求的另一个愚蠢的文件。
(我找不到添加注释的方法,但是)另外,我想补充一点,没有robots.txt也是一个问题,因为您将无法为其提供站点地图。 请记住,Sitemaps只能通过在Robots.txt文件中指定或通过直接提交给search引擎来定位,但当然后者意味着您必须一个接一个地完成,而不仅仅是快速find它。