当我尝试获取我的网站作为网站pipe理员工具中的googlebot时,它返回无法访问的robots.txt,调查后我明白谷歌机器人可以看到我的服务器:
tcpdump | grep google
它返回谷歌可以访问我的服务器IP aa.bb.cc.xx或aa.bb.cc.yy. 但access_log或error_log或其他apache日志中没有任何内容。
cat access_log | grep google or cat error_log | grep aa.bb.cc.xx
其他机器人(冰,…)可以访问Apache,但谷歌不能。
在我的robots.txt
或其权限没有问题,因为你知道robots.txt
是没有必要的,所以我删除它,但网站pipe理员工具返回“无法访问robots.txt”,不是404没有find!
有关服务器的信息
我该如何调查这个问题,还有什么其他的命令可以帮助我find问题吗?
您删除了robots.txt
文件,当然这是“无法访问” – Google收到响应请求的404错误是因为该文件不存在。
如果该工具需要robots.txt
存在,那么您可能需要一个。