我们注意到,大量的networkingstream量来自内容刮板(由于其抓取模式而定)。 他们是无用的访问者,但我们消耗了大量的资源(带宽,CPU)。 有没有任何应用程序/防火墙检测内容刮板和阻止他们?
不包括search引擎抓取工具,他们不是没用的。
注意:我更喜欢使用现有的解决scheme。 它认为这是一个普遍的问题,应该有一个现有的解决scheme。
最好的办法是使用netfilter / iptables来阻塞stream量,因为这实际上比通过apache2 / php的阻塞更有效。 这里的问题是,你需要知道内容刮刀的IP /主机名。
一个可能的扩展可能是你试图根据自己的行为( – >统计方法 – 例如每分钟请求)来检测内容刮板,或者例如search缺less的useragent或普通用户浏览器可能具有的其他内容,然后拒绝访问它们。 当然你也可以通过php(或者你使用的任何环境)来添加IP /主机名到iptables,所以它被阻塞了。 但通常这需要root权限,并且给你的apache2权限不是一个好主意。