怀疑我的网站用户之一进行恶意活动; 任何方式知道肯定？

在大约2个小时的过程中，我的网站上login的用户访问了大约1600页的方式，看起来像一个机器人可疑。我担心，因为用户必须购买访问该网站才能完全访问我们的受保护的内容; 所以我有理由相信这个人是在刮我们的内容。

我知道我应该有一些缓解因素来防止这种活动的发生。我现在正在努力。

基于Apache的访问和错误日志，我有非常强烈的间接证据表明用户正在使用某种爬虫或机器人。我想知道是否有任何方法可以得到直接的证据，即基于抓取模式，我可以100％说这是一个脚本？

以下是访问日志的示例：

###.###.###.### - - [06/Apr/2016:19:32:59 -0500] "GET /article/id/slug-slug-slug-slug HTTP/1.1" 200 15002 "-" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0" ###.###.###.### - - [06/Apr/2016:19:33:00 -0500] "GET /article/id/slug-slug-slug-slug HTTP/1.1" 200 15002 "-" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0" ###.###.###.### - - [06/Apr/2016:19:33:04 -0500] "GET /article/id/wordmark-icon.png HTTP/1.1" 404 5026 "mywebsite.com/article/id/slug-slug-slug-slug" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0" ###.###.###.### - - [06/Apr/2016:19:33:05 -0500] "GET /article/id/60559332d74832ae81f6ea69f98e24cc.png HTTP/1.1" 404 5191 "mywebsite.com/article/id/slug-slug-slug-slug" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0" ###.###.###.### - - [06/Apr/2016:19:33:05 -0500] "GET /article/id/9e8d61bdd8acf3735a02ef90192eefa8.png HTTP/1.1" 404 5189 "mywebsite.com/article/id/slug-slug-slug-slug" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0" ###.###.###.### - - [06/Apr/2016:19:33:05 -0500] "GET /article/id/b75384c9aa61c22fa768cdfbafaf5351.png HTTP/1.1" 404 5190 "mywebsite.com/article/id/slug-slug-slug-slug" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0" ###.###.###.### - - [06/Apr/2016:19:33:06 -0500] "HEAD /article/id2/slug-slug-slug-slug HTTP/1.1" 200 604 "mywebsite.com/article" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0" ###.###.###.### - - [06/Apr/2016:19:33:07 -0500] "HEAD /article/id3/slug-slug-slug-slug HTTP/1.1" 200 604 "mywebsite.com/article" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0" ###.###.###.### - - [06/Apr/2016:19:33:08 -0500] "GET /article/id3/slug-slug-slug-slug HTTP/1.1" 200 9983 "-" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"

…等等等等。

以下是我在上面find的一些观察结果：

大约一毫秒内有两个GET请求到同一个URL。我不相信这是人类可以做的，但我可能是错的。
我不熟悉在典型的用户活动中看到HEAD请求。这是常见的，或机器人的证据？
在上面的前两个GET请求之后，还有其他请求来获取文章中find的图像。但是，实际上，这些图像位于具有完全不同的URLscheme的CDN上。这个人/ bot /无论是使用URI（/ article / id /）并添加实际的图像文件名，导致404错误。这发生在每一个实例。

可以肯定地说这是一个机器人，超越了疑问的阴影吗？如果是这样，是否有任何可能的方法来找出具体的脚本，或者是一个长镜头？至less，是否有某种types的机器人，networking刮板或脚本的症状？

谢谢您的意见。

可以肯定地说这是一个机器人，超越了疑问的阴影吗？

没有人可以让你的站点有多个标签打开，崩溃浏览器，重新打开所有标签的浏览器窗口，并导致这种类似DOS攻击的指纹。

如果是这样，是否有任何可能的方法来找出具体的脚本，或者是一个长镜头？

我没有看到任何数据可以准确地让您指定这样的脚本。

至less，是否有某种types的机器人，networking刮板或脚本的症状？

破碎的图像请求确实使其看起来可疑。所以是的，自动化活动的症状，是的。

不要试图找出究竟是什么，而要考虑像Repsheet这样的行为/声誉监控工具。这使您可以首先logging活动并确定您可能想要标记为可疑的模式。接下来，您可以决定如何处理这种可疑活动。

如果你不能确定它是一个机器人而不想愤怒可能是一个真正的用户，你可以简单地显示一个挑战，如reCaptcha，或再次login。或者，您可以将此用户redirect到辅助服务器，以便主服务器上的可信任人员不会遇到性能问题。或者你甚至可以把它们发送给一个蜜jar，做任何你想要的，显示假的数据，显示caching的数据等等。