怀疑我的网站用户之一进行恶意活动; 任何方式知道肯定?

在大约2个小时的过程中,我的网站上login的用户访问了大约1600页的方式,看起来像一个机器人可疑。 我担心,因为用户必须购买访问该网站才能完全访问我们的受保护的内容; 所以我有理由相信这个人是在刮我们的内容。

我知道我应该有一些缓解因素来防止这种活动的发生。 我现在正在努力。

基于Apache的访问和错误日​​志,我有非常强烈的间接证据表明用户正在使用某种爬虫或机器人。 我想知道是否有任何方法可以得到直接的证据,即基于抓取模式,我可以100%说这是一个脚本?

以下是访问日志的示例:

###.###.###.### - - [06/Apr/2016:19:32:59 -0500] "GET /article/id/slug-slug-slug-slug HTTP/1.1" 200 15002 "-" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0" ###.###.###.### - - [06/Apr/2016:19:33:00 -0500] "GET /article/id/slug-slug-slug-slug HTTP/1.1" 200 15002 "-" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0" ###.###.###.### - - [06/Apr/2016:19:33:04 -0500] "GET /article/id/wordmark-icon.png HTTP/1.1" 404 5026 "mywebsite.com/article/id/slug-slug-slug-slug" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0" ###.###.###.### - - [06/Apr/2016:19:33:05 -0500] "GET /article/id/60559332d74832ae81f6ea69f98e24cc.png HTTP/1.1" 404 5191 "mywebsite.com/article/id/slug-slug-slug-slug" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0" ###.###.###.### - - [06/Apr/2016:19:33:05 -0500] "GET /article/id/9e8d61bdd8acf3735a02ef90192eefa8.png HTTP/1.1" 404 5189 "mywebsite.com/article/id/slug-slug-slug-slug" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0" ###.###.###.### - - [06/Apr/2016:19:33:05 -0500] "GET /article/id/b75384c9aa61c22fa768cdfbafaf5351.png HTTP/1.1" 404 5190 "mywebsite.com/article/id/slug-slug-slug-slug" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0" ###.###.###.### - - [06/Apr/2016:19:33:06 -0500] "HEAD /article/id2/slug-slug-slug-slug HTTP/1.1" 200 604 "mywebsite.com/article" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0" ###.###.###.### - - [06/Apr/2016:19:33:07 -0500] "HEAD /article/id3/slug-slug-slug-slug HTTP/1.1" 200 604 "mywebsite.com/article" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0" ###.###.###.### - - [06/Apr/2016:19:33:08 -0500] "GET /article/id3/slug-slug-slug-slug HTTP/1.1" 200 9983 "-" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0" 

…等等等等。

以下是我在上面find的一些观察结果:

  1. 大约一毫秒内有两个GET请求到同一个URL。 我不相信这是人类可以做的,但我可能是错的。
  2. 我不熟悉在典型的用户活动中看到HEAD请求。 这是常见的,或机器人的证据?
  3. 在上面的前两个GET请求之后,还有其他请求来获取文章中find的图像。 但是,实际上,这些图像位于具有完全不同的URLscheme的CDN上。 这个人/ bot /无论是使用URI(/ article / id /)并添加实际的图像文件名,导致404错误。 这发生在每一个实例。

可以肯定地说这是一个机器人,超越了疑问的阴影吗? 如果是这样,是否有任何可能的方法来找出具体的脚本,或者是一个长镜头? 至less,是否有某种types的机器人,networking刮板或脚本的症状?

谢谢您的意见。

可以肯定地说这是一个机器人,超越了疑问的阴影吗?

没有人可以让你的站点有多个标签打开,崩溃浏览器,重新打开所有标签的浏览器窗口,并导致这种类似DOS攻击的指纹。

如果是这样,是否有任何可能的方法来找出具体的脚本,或者是一个长镜头?

我没有看到任何数据可以准确地让您指定这样的脚本。

至less,是否有某种types的机器人,networking刮板或脚本的症状?

破碎的图像请求确实使其看起来可疑。 所以是的,自动化活动的症状,是的。

不要试图找出究竟是什么,而要考虑像Repsheet这样的行为/声誉监控工具。 这使您可以首先logging活动并确定您可能想要标记为可疑的模式。 接下来,您可以决定如何处理这种可疑活动。

如果你不能确定它是一个机器人而不想愤怒可能是一个真正的用户,你可以简单地显示一个挑战,如reCaptcha,或再次login。 或者,您可以将此用户redirect到辅助服务器,以便主服务器上的可信任人员不会遇到性能问题。 或者你甚至可以把它们发送给一个蜜jar,做任何你想要的,显示假的数据,显示caching的数据等等。