在大约2个小时的过程中,我的网站上login的用户访问了大约1600页的方式,看起来像一个机器人可疑。 我担心,因为用户必须购买访问该网站才能完全访问我们的受保护的内容; 所以我有理由相信这个人是在刮我们的内容。
我知道我应该有一些缓解因素来防止这种活动的发生。 我现在正在努力。
基于Apache的访问和错误日志,我有非常强烈的间接证据表明用户正在使用某种爬虫或机器人。 我想知道是否有任何方法可以得到直接的证据,即基于抓取模式,我可以100%说这是一个脚本?
以下是访问日志的示例:
###.###.###.### - - [06/Apr/2016:19:32:59 -0500] "GET /article/id/slug-slug-slug-slug HTTP/1.1" 200 15002 "-" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0" ###.###.###.### - - [06/Apr/2016:19:33:00 -0500] "GET /article/id/slug-slug-slug-slug HTTP/1.1" 200 15002 "-" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0" ###.###.###.### - - [06/Apr/2016:19:33:04 -0500] "GET /article/id/wordmark-icon.png HTTP/1.1" 404 5026 "mywebsite.com/article/id/slug-slug-slug-slug" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0" ###.###.###.### - - [06/Apr/2016:19:33:05 -0500] "GET /article/id/60559332d74832ae81f6ea69f98e24cc.png HTTP/1.1" 404 5191 "mywebsite.com/article/id/slug-slug-slug-slug" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0" ###.###.###.### - - [06/Apr/2016:19:33:05 -0500] "GET /article/id/9e8d61bdd8acf3735a02ef90192eefa8.png HTTP/1.1" 404 5189 "mywebsite.com/article/id/slug-slug-slug-slug" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0" ###.###.###.### - - [06/Apr/2016:19:33:05 -0500] "GET /article/id/b75384c9aa61c22fa768cdfbafaf5351.png HTTP/1.1" 404 5190 "mywebsite.com/article/id/slug-slug-slug-slug" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0" ###.###.###.### - - [06/Apr/2016:19:33:06 -0500] "HEAD /article/id2/slug-slug-slug-slug HTTP/1.1" 200 604 "mywebsite.com/article" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0" ###.###.###.### - - [06/Apr/2016:19:33:07 -0500] "HEAD /article/id3/slug-slug-slug-slug HTTP/1.1" 200 604 "mywebsite.com/article" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0" ###.###.###.### - - [06/Apr/2016:19:33:08 -0500] "GET /article/id3/slug-slug-slug-slug HTTP/1.1" 200 9983 "-" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"
…等等等等。
以下是我在上面find的一些观察结果:
可以肯定地说这是一个机器人,超越了疑问的阴影吗? 如果是这样,是否有任何可能的方法来找出具体的脚本,或者是一个长镜头? 至less,是否有某种types的机器人,networking刮板或脚本的症状?
谢谢您的意见。
可以肯定地说这是一个机器人,超越了疑问的阴影吗?
没有人可以让你的站点有多个标签打开,崩溃浏览器,重新打开所有标签的浏览器窗口,并导致这种类似DOS攻击的指纹。
如果是这样,是否有任何可能的方法来找出具体的脚本,或者是一个长镜头?
我没有看到任何数据可以准确地让您指定这样的脚本。
至less,是否有某种types的机器人,networking刮板或脚本的症状?
破碎的图像请求确实使其看起来可疑。 所以是的,自动化活动的症状,是的。
不要试图找出究竟是什么,而要考虑像Repsheet这样的行为/声誉监控工具。 这使您可以首先logging活动并确定您可能想要标记为可疑的模式。 接下来,您可以决定如何处理这种可疑活动。
如果你不能确定它是一个机器人而不想愤怒可能是一个真正的用户,你可以简单地显示一个挑战,如reCaptcha,或再次login。 或者,您可以将此用户redirect到辅助服务器,以便主服务器上的可信任人员不会遇到性能问题。 或者你甚至可以把它们发送给一个蜜jar,做任何你想要的,显示假的数据,显示caching的数据等等。