每天我的访问日志看起来都是这样的:
66.249.78.140 - - [21/Oct/2013:14:37:00 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 66.249.78.140 - - [21/Oct/2013:14:37:01 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 66.249.78.140 - - [21/Oct/2013:14:37:01 +0200] "GET /vuqffxiyupdh.html HTTP/1.1" 404 1189 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
或这个
66.249.78.140 - - [20/Oct/2013:09:25:29 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 66.249.75.62 - - [20/Oct/2013:09:25:30 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 66.249.78.140 - - [20/Oct/2013:09:25:30 +0200] "GET /zjtrtxnsh.html HTTP/1.1" 404 1186 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
机器人两次调用robots.txt ,之后尝试访问不能存在的文件( zjtrtxnsh.html , vuqffxiyupdh.html ,…),并且必须返回404错误。 每天都有相同的程序,只是出现的html文件名更改。
我的robots.txt的内容:
User-agent: * Disallow: /backend Sitemap: http://mysitesname.de/sitemap.xml
sitemap.xml是可读和有效的,所以似乎没有理由为什么机器人应该要强制404错误。
我应该如何解释这种行为? 这是否表明我犯了一个错误,或者我应该忽略它?
UPDATE
@malware我用几个在线工具扫描我的网站,没有发现任何东西。
我没有像wordpress或phpmyadmin服务器上的标准应用程序。
我每天都会收到一个logwatch,而且没有未经授权的ssh-access或类似的东西。
我有fail2ban设置。
我已经限制ssh访问公共密钥,不允许rootlogin。
没有任何logging报告的sudo命令,我无法识别当天所做的事情。
我的网站目录中没有任何文件是新的,或者是我没有创build的,或者看起来有点we((好吧,我不能保证100%,但是看起来没问题)。
我已经做了一个完整的clamscan在服务器上没有任何结果。
软件包是最新的。
我还可以做些什么?
总之:如果我的记忆服务器我是正确的。 它来检查您的网站上的404页面。
较长的答案:人们创build自定义404页面,然后忘记更改页面的状态代码。 最后,当谷歌机器人尝试访问一个无效的url时,你将返回自定义的页面状态为200的自定义页面。 现在机器人必须做出决定。 为了帮助它做出这个决定,它会尝试使用一个随机生成的URL来访问你的服务器,这个URL很有可能不在你的站点上,当请求一个未find的页面时,检查该站点的响应是什么。
正如我所说,我不是100%确定的。