如何防止漫游器试图猜测我的网站上的链接

我最近安装的logwatch报告显示了这个:

--------------------- httpd Begin ------------------------ 0.78 MB transferred in 5864 responses (1xx 0, 2xx 4900, 3xx 0, 4xx 964, 5xx 0) 160 Images (0.16 MB), 857 Content pages (0.62 MB), 4847 Other (0.00 MB) Requests with error response codes 404 Not Found /%E2%80%98planeat%E2%80%99-film-explores-l ... greenfudge-org/: 1 Time(s) /10-foods-to-add-to-the-brain-diet-to-help ... -function/feed/: 1 Time(s) /10-ways-to-reboot-your-body-with-healthy- ... s-and-exercise/: 1 Time(s) /bachmann-holds-her-ground-against-raising ... com-blogs/feed/: 1 Time(s) /behind-conan-the-barbarians-diet/: 1 Time(s) /tag/dietitian/: 1 Time(s) /tag/diets/page/10/: 1 Time(s) /tag/directory-products/feed/: 1 Time(s) /wp-content/uploads/2011/06/1309268736-49.jpg: 1 Time(s) /wp-content/uploads/2011/06/1309271430-30.jpg: 1 Time(s) /wp-content/uploads/2011/06/1309339847-35.jpg: 1 Time(s) 

我的logging在这里 :上面有很多这样的要求,因为清晰,我只粘贴了一些。

  A total of 12 ROBOTS were logged Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 2 Time(s) Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) 5 Time(s) Twitterbot/1.0 1 Time(s) Mozilla/5.0 (compatible; AhrefsBot/2.0; +http://ahrefs.com/robot/) 4 Time(s) Sosospider+(+http://help.soso.com/webspider.htm) 3 Time(s) msnbot/2.0b (+http://search.msn.com/msnbot.htm)._ 1 Time(s) Mozilla/5.0 (compatible; MJ12bot/v1.4.2; http://www.majestic12.co.uk/bot.php?+) 1 Time(s) msnbot-media/1.1 (+http://search.msn.com/msnbot.htm) 77 Time(s) Mozilla/5.0 (compatible; Ezooms/1.0; [email protected]) 1 Time(s) Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) 17 Time(s) Baiduspider+(+http://www.baidu.com/search/spider.htm) 11 Time(s) Mozilla/5.0 (compatible; Butterfly/1.0; +http://labs.topsy.com/butterfly/) Gecko/2009032608 Firefox/3.0.8 1 Time(s) ---------------------- httpd End ------------------------- 

所以,我认为这是一种机器人(可能是上面列出的机器人之一),所以,请你指导我如何防止他们猜测链接,希望find内容?

编辑:因为我拥有一个VPS服务器,它上面有很多域名。 你能告诉我怎么知道特定的404发生在哪个域? 像这样的行例如:/ tag / dietitian /

你不会再也不能阻止常规用户猜测链接了。 正确保护您的内容,这不会是一个问题。

隐晦的链接并不是隐藏事物的安全方式。

你可以确保你有一个正确configuration的robots.txt – 这将停止大部分合法的机器人。

一种方法是使用fail2ban并将其configuration为符合您的需求。 简而言之,在fail2ban的其他function中,fail2ban可以定制你的Apache访问日志,并且在Xtypes的Ytypes匹配之后,通过阻塞客户端IP达到XX分钟,可以使访问客户端受到Z分钟处罚。

通常足以吓跑机器人,但要小心,这可以很好地阻止合法用户,如果你不够小心。

search引擎爬虫不会猜测链接 – 他们只是跟随他们,除非阻止nofollow或robots.txt规则。

如果您对search引擎的机器人中不存在的内容有要求 – search引擎正在追踪指向该网页的公共访问页面上的链接,则正确的操作是纠正/删除引用。

如果它是一个恶意的机器人 – 你所能做的只是检测它并阻止访问。 如果机器人宣布自己 – 这很容易,你可以例如阻止重写规则

您可以将虚拟主机信息添加到日志中,或者为每个虚拟主机使用单独的日志

请参阅Apache日志文件文档