networking爬虫已经购买了我们的网站两次。 它忽略了我们的robots.txt,我们没有从他们的客户服务或支持使用电子邮件和Twitter的回复。
我不得不根据用户代理string创buildurlredirect,我已将所有请求redirect到他们自己的公共网站。 这是正确的吗?
编辑如何返回40? 基于用户代理string的错误代码使用tomcat / tuckey? (我们的网站托pipe在Windows服务器上,如果这很重要。)我不能使用IP地址,因为机器人使用很多(显然是基于网格的)。
这部分是因为我们的网站是一个老旧的系统,但是Google的抓取工具和Bing的抓取工具并没有把我们打翻,而我们正常的业务stream量也没有问题。 处理一个机器人的重大投资/开发是不明智的。
networking爬虫已经购买了我们的网站两次
如果一个networking爬虫可以把你的网站,那么他们已经certificate,您的网站是非常脆弱的DOS。 虽然是的,但一个快速的解决scheme是阻止该webcrawler的访问,它并不真正为其他networking爬虫/ DOS /大量的合法stream量提供多less保护。
我同意鲍比 – 你知道这个请求是来自一个不好performance的客户端,那么正确的响应是一个4xx错误代码 – 但你可以在响应中放置任何状态消息 – 并且应该在主体中重复。 我不认为需要一个新的状态代码–409似乎是为了解决这个问题。
真的,你应该看看如何更好地处理这样的stream量 – 最小带宽保证比带宽更有效,但比后者更为罕见。 限制每个IP地址的连接数量和连接速度也是一个好方法(但是如果使用IPv4,请注意IPv6 PoP问题)。
如果你想在用户空间中运行一个自适应解决scheme(假设这是在Linux / BSD上),请看fail2ban。
限制带宽/节点仍然在补救 – 更好的解决scheme是提高系统的性能/容量。