谷歌机器人旅行在一个完全正常的robots.txt,然后在一个不存在的robots.txt

我有两个域名指向同一个虚拟服务器。 其中之一, http://ilarikaila.com ,是我为朋友制作的工作手册网站。 我使用另一个http://teemuleisti.com在公开之前对网站进行testing – 回想起来,这可能是个坏主意。

很长一段时间,Google-bot在两个方面对于search“ilari kaila”感到困惑,但是当我写这个的时候,第二个问题似乎已经消失了( 编辑时加上:不,它没有)。

混淆第一

“ilari kaila”的Googlesearch结果中包含ilarikaila.com,但仅包含结果的第三页,而不是来自网站的摘录,结果中包含文字“此结果的描述不可用,因为这个网站的robots.txt – 了解更多。“

robots.txt文件的内容很简单

 User-agent: * Allow: / 

这当然不应该阻止任何机器人列出网站的内容。 事实上,当serge的术语“ilari kaila”被送入bing.com时 ,该网站就成为第一个search结果(和stlil),并且显示了一个正确的片段。

几天前,我完全删除了robots.txt (或更名为not_robots.txt ),但Google仍然显示相同的结果,指的是robots.txt。 (这可能是网站只出现在search结果的第三页上的原因。)

混淆第二

最初,对teemuleisti.com的请求显示与ilarikaila.com相同的页面,因为我没有为我的nginx.conf文件中的前者编写单独的server块。 几个星期前,我做了这个,为前一个网站写了一个非常简单的HTML页面。

尽pipe如此,谷歌search“ilari kaila”的search结果甚至在我进行前两个星期之前,甚至一个小时之前,也显示了与teemuleisti.com网站的链接。 然而,这个问题似乎已经解决( 编辑时添加:不,它没有),当我写这个问题,也许是因为我只是添加了以下redirect到服务器的nginx.conf文件:

 server { listen 80; server_name teemuleisti.com www.teemuleisti.com; ... location = /index.html { break; } location ~* ^/(.+)$ { rewrite ^ http://teemuleisti.com redirect; } } 

将http://teemuleisti.com/press (显示实际位于http://ilarikaila.com/press的内容片段)等search结果redirect到teemuleisti.com的唯一页面,teemuleisti.com现在会通知访问者Google的索引问题,并链接到正确的网站。

这似乎已经让Google-bot在这个问题上成为正确的东西 – 虽然我看不出它有什么不同,因为几周前teemuleisti.com下没有任何子页面,但是robots.txt什么困惑?

添加编辑:如果我谷歌的“ilari凯拉composer php”,search结果的第二页仍然指向teemuleisti.com,所以这个问题还没有解决,或者。

没有Allow在robots.txt这样的事情,因此你的robots.txt是无效的。 这让机器人感到困惑,因为它只是期望AgentDisallow描述。 你应该删除robots.txt,或者如果你想要所有的上下文被索引的话,它应该是空的。

更多信息: http : //www.robotstxt.org/robotstxt.html