谷歌机器人旅行在一个完全正常的robots.txt，然后在一个不存在的robots.txt

我有两个域名指向同一个虚拟服务器。其中之一， http://ilarikaila.com ，是我为朋友制作的工作手册网站。我使用另一个http://teemuleisti.com在公开之前对网站进行testing – 回想起来，这可能是个坏主意。

很长一段时间，Google-bot在两个方面对于search“ilari kaila”感到困惑，但是当我写这个的时候，第二个问题似乎已经消失了（ 编辑时加上：不，它没有）。

混淆第一

“ilari kaila”的Googlesearch结果中包含ilarikaila.com，但仅包含结果的第三页，而不是来自网站的摘录，结果中包含文字“此结果的描述不可用，因为这个网站的robots.txt – 了解更多。“

robots.txt文件的内容很简单

 User-agent: * Allow: /

这当然不应该阻止任何机器人列出网站的内容。事实上，当serge的术语“ilari kaila”被送入bing.com时 ，该网站就成为第一个search结果（和stlil），并且显示了一个正确的片段。

几天前，我完全删除了robots.txt （或更名为not_robots.txt ），但Google仍然显示相同的结果，指的是robots.txt。（这可能是网站只出现在search结果的第三页上的原因。）

混淆第二

最初，对teemuleisti.com的请求显示与ilarikaila.com相同的页面，因为我没有为我的nginx.conf文件中的前者编写单独的server块。几个星期前，我做了这个，为前一个网站写了一个非常简单的HTML页面。

尽pipe如此，谷歌search“ilari kaila”的search结果甚至在我进行前两个星期之前，甚至一个小时之前，也显示了与teemuleisti.com网站的链接。然而，这个问题似乎已经解决（ 编辑时添加：不，它没有），当我写这个问题，也许是因为我只是添加了以下redirect到服务器的nginx.conf文件：

 server { listen 80; server_name teemuleisti.com www.teemuleisti.com; ... location = /index.html { break; } location ~* ^/(.+)$ { rewrite ^ http://teemuleisti.com redirect; } }

将http://teemuleisti.com/press （显示实际位于http://ilarikaila.com/press的内容片段）等search结果redirect到teemuleisti.com的唯一页面，teemuleisti.com现在会通知访问者Google的索引问题，并链接到正确的网站。

这似乎已经让Google-bot在这个问题上成为正确的东西 – 虽然我看不出它有什么不同，因为几周前teemuleisti.com下没有任何子页面，但是robots.txt什么困惑？

添加编辑：如果我谷歌的“ilari凯拉composer php”，search结果的第二页仍然指向teemuleisti.com，所以这个问题还没有解决，或者。

没有Allow在robots.txt这样的事情，因此你的robots.txt是无效的。这让机器人感到困惑，因为它只是期望Agent和Disallow描述。你应该删除robots.txt，或者如果你想要所有的上下文被索引的话，它应该是空的。

更多信息： http ： //www.robotstxt.org/robotstxt.html