是禁止amazonaws.com好主意

网站由亚马逊ec2上托pipe的匿名机器人抓取。 这个机器人不尊重robots.txt并且在web服务器上创build高负载,所以我添加了检查请求的反向IP是否以“amazonaws.com”结束,然后服务器立即返回403页。

这解决了问题,但可能会导致其他问题? ec2可能会被用于某些“好”的机器人,这将导致他们的访问问题。 你能举出这样的问题吗?

亚马逊EC2是一个托pipe平台。 他们不直接控制什么人主持。 如果您阻止整个* .amazonaws.com域名,则您将停止使用EC2访问任何托pipe服务。 这些日子相当多。

看看这个类似的问题:它显示了如何通过用户代理直接在.htaccess文件中阻止。 这对于无法遵循robots.txt规则的机器人很有用…

在httpd.conf中用户代理string阻塞无效

你可以把它放在httpd.conf文件或者.htaccess中。

祝你好运。