redirect时的伦理/法律考虑

networking爬虫已经购买了我们的网站两次。它忽略了我们的robots.txt，我们没有从他们的客户服务或支持使用电子邮件和Twitter的回复。

我不得不根据用户代理string创buildurlredirect，我已将所有请求redirect到他们自己的公共网站。这是正确的吗？

编辑如何返回40？基于用户代理string的错误代码使用tomcat / tuckey？（我们的网站托pipe在Windows服务器上，如果这很重要。）我不能使用IP地址，因为机器人使用很多（显然是基于网格的）。

这部分是因为我们的网站是一个老旧的系统，但是Google的抓取工具和Bing的抓取工具并没有把我们打翻，而我们正常的业务stream量也没有问题。处理一个机器人的重大投资/开发是不明智的。

networking爬虫已经购买了我们的网站两次

如果一个networking爬虫可以把你的网站，那么他们已经certificate，您的网站是非常脆弱的DOS。虽然是的，但一个快速的解决scheme是阻止该webcrawler的访问，它并不真正为其他networking爬虫/ DOS /大量的合法stream量提供多less保护。

我同意鲍比 – 你知道这个请求是来自一个不好performance的客户端，那么正确的响应是一个4xx错误代码 – 但你可以在响应中放置任何状态消息 – 并且应该在主体中重复。我不认为需要一个新的状态代码–409似乎是为了解决这个问题。

真的，你应该看看如何更好地处理这样的stream量 – 最小带宽保证比带宽更有效，但比后者更为罕见。限制每个IP地址的连接数量和连接速度也是一个好方法（但是如果使用IPv4，请注意IPv6 PoP问题）。

如果你想在用户空间中运行一个自适应解决scheme（假设这是在Linux / BSD上），请看fail2ban。

限制带宽/节点仍然在补救 – 更好的解决scheme是提高系统的性能/容量。