我们有这样一种情况,即僵尸程序占据了低性能Web应用程序页面请求的40%。
短期救济
作为即时救济,我想到了以下几点:
通过服务器将“botstream量”从“用户stream量”中分离出来,会给服务器端更精确的分析带来额外的好处(即知道所有stream量来自“真实用户”而不是来自机器人)。 另外,我们可以使用较慢的服务器来处理“botstream量”,并将更多的资源投入到“真正的客户”
上下文
题:
请考虑任何其他build议
提前致谢
几点build议:
User-Agent将机器人(或类似的东西)路由到一个静态页面,所以你的应用程序不会花费周期来响应机器人。 看到有一些例子的mod重写指南 robots.txt一个选项? 这可能是缓解服务器负载的最简单的select。 添加另一台服务器可能是“昂贵的”(及时和维护),并不会是我的第一select。 有可能因为没有真正回答你的问题而陷入低谷。
您可以使用Google网站pipe理员工具中的设置来减慢Googlebot的速度。
大多数主要抓取工具都支持robots.txt中的Crawl-delay指令来减缓抓取速度。 雅虎的机器人可能特别具有侵略性。
在robots.txt中完全禁用百度等。 他们对你没有什么好处
将攻击性僵尸视为DOS攻击,并使用IPTABLES或Apache的mod_security插件来限制来自每个IP的请求频率。