Mozilla / 5.0(Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10)的非法stream量Gecko / 2009042316 Firefox / 3.0.10(.NET CLR 3.5.30729)

这是一个迅速变化的事件,还没有答案。

请不要将您的发现或假设作为答案发布; 保留答案领域,当你实际有一个答案。

如果你有新的东西要添加,请直接编辑它的问题。


从今年年初开始,我和用户代理获得了很多stream量:

Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729).

我的访问日志显示该用户代理的40% – 60%。 这很奇怪,因为用户代理指定了Firefox 3.0.10浏览器(2012年是否有人使用该浏览器?绝对不是正常网站上的访问者的40%-60%)。

此外,日志显示此用户代理只请求HTML文件,并没有引用资产,如图像,CSS,JS文件。

我检查了这些请求(与该UA)的IP。 它来自世界各地。 我认识到这些IP有时候有一个移动用户代理。

所以我怀疑是一个正在做很多“蜘蛛请求”的移动应用程序。 知道来自该用户代理的stream量的根本原因将是很好的。

任何人都可以找出根本原因吗?

在过去的几周里,我们认识到来自UA的stream量下降,其他stream量增加。 看起来bot /爬虫现在使用更常见的UA,因此更难以阻止。 我看到有人在回答这个问题时说,但是当serverfault决定重新安排这个问题的时候,它被删除了。

旧的答案作为参考


Dee的更新

我运行了我自己的高度被贩运的网站,并且在上个月的apache日志中看到完全一样的东西(我还没有机会进一步检查)。 所有请求中有40%是我看到的百分比,显然这是很危险的。

而且我也注意到这些请求总是似乎说请求的浏览器不支持gzip压缩 – 导致所有的网页请求被无压缩地发送,并且我们的带宽使用率超过了屋顶!

但到目前为止,我一直无法确定到底发生了什么事情 – 到目前为止,我怀疑的是,它可能是某种代理服务器,或者是发送虚假useragentstring的移动设备

编辑添加:只是做了更多的研究,它看起来像它可能是防病毒软件: http : //www.webmasterworld.com/search_engine_spiders/4428772.htm


从jamur21更新

是的,我们发现多个网站的stream量相似。

我们仍然在寻找根本原因,但是我们的一些发现包括:

  • 如果它是一只蜘蛛,它的工作做得很差。 似乎每个域只能search一个或两个URL一段时间(也许几个小时),直到它移动到另一个URL。 尽pipe如此,内容总是相对“现在”,正如Dee发布在他/她的回答(我们所有的网站都是新闻网站)中的链接所指出的那样,这使得Google新闻成为一个因素。

  • 虽然知识产权在地理上分布,但我们大多数似乎都位于原产地附近(我们的大部分地区都是本地新闻网站,所以它们没有得到很多全国性的stream量)。 几乎没有任何要求来自美国以外。 同样,这也使得Google新闻中的URL变得可信(我猜那些通过邮政编码本地化Google新闻的人会看到我们的内容)。

  • 大多数情况下,这些请求可以作为背景噪声(尽pipe是特别嘈杂的)被注销,但是我们每天要花费几次,而这个UA在大约15-30分钟内就会占用100Mbps的stream量。

  • 不幸的是,虽然Google新闻似乎是这些url被发现的一个可能的载体,但是我们所看到的所有内容都是间接的,而且我们仍然没有任何关于这些URL如何以及为什么受到攻击的吸烟枪。


来自Bannow Bay的更新

我们有大新闻网站 – 我们的故事每周都会被Google新闻收录几次。 自11月下旬以来,我们一直在从这个渠道获得stream量 – 而且它每周都在增长 – 二月份可能会达到3000万次。

Google新闻美国首页上的外观引发了这种stream量 – 大约75%的声音来自美国的IP。 但无论如何,它正在努力模糊自己。 这不友善。

我们还没有发现吸烟枪 – 但一个主要的安全供应商已经同意代表我们进一步调查。


来自Artem Russakovskii的更新

新闻网站(AndroidPolice.com)刚刚发生了同样的事情。 大约10分钟的这些随机请求使QPS超过了我们平均5000%的速度(5000qps,这是Linode的NodeBalancer的限制)。 由于请求吃掉了I / O和networking,CPU开始闲置 – 这是一个真正的DDOS。

我真的很想深究这一点,但目前看来这完全令人费解。


马克更新

只需添加一个+1。 我们在我们的网站上看到相同的行为。 这里没有大量的新信息要添加,但这是我们的stream量的一般forms:

  1. stream量高度分散。 stream量来自大约60k个独特的IP。
  2. 绝大多数stream量正在打到一个单一的URL,通常是在Google新闻上列出的最近的URL(尽pipeGoogle新闻并不总是看起来像是一个向量)
  3. 所有这些stream量都来自同一个Firefox / 3.0.10用户代理,正如在这个线程中提到的,尽pipe我们在这里和那里看到了一些古怪的移动代理。
  4. 来自此代理的所有stream量都不包含引荐来源数据。
  5. 每周爆发一到两次,持续30-60分钟,然后消失。

Don Ireland的更新

最后一个post是4月13日,但交通肯定还没有结束。 最奇怪的部分可能是任何值得他的盐的恶意软件作者肯定会(肯定地)使用来自现代浏览器的用户代理string,使得块用户代理防御变得毫无价值。 这个事实使得看起来好像一个“无害的”新闻聚合器或其他应用程序是来源。 到目前为止,我也一直没有得出任何真正的结论,希望有信息的人可以在这里发表。

我们看到了相同的模式,谷歌新闻收到一个故事,然后非常高的stream量请求故事(但不是配件文件,如图像)的高峰。 出站响应stream量引起可能使networking饱和的尖峰(或者,直到我们开始只有503错误的响应)。 这些攻击(我们还有什么可称之为?)平均持续约30分钟,但非常受欢迎的故事可能有一个小时或更长时间的高stream量(我说的是3.0.10stream量的火狐,当然正常的stream量也保持高一段时间)。

在一个小时内(对于负载平衡组中的单个服务器),我们看到了20万个请求,其中97,000个是Firefox 3.0.10的请求,几乎占所有请求的50%。 而当你认为通常一个页面对主文件和附件文件产生10个或更多的请求时,97000个织机要大得多。 我注意到在97,000个中有51,000个唯一的IP地址。 而我正在谈论一个小时(实际上是接近45分钟)。 不pipe是什么原因造成这种现象非常普遍。


从user119708更新

我们在一个巨大的法国高科技新闻网站上也有同样的问题。

每当消息发布在Google新闻上时,通过IP和用户代理“Mozilla / 5.0(Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10 )Gecko / 2009042316 Firefox / 3.0.10(.NET CLR 3.5.30729)“。

所有IP地址似乎都位于法国或法国国家,没有引用。 这似乎是一个机器人,但为什么一个单一的远程地址在几分钟内就要在同一个新闻中回来50或100次呢? 难道是被感染的电脑? 为什么当这个消息在谷歌新闻上可见时出现这种现象? Google对这种奇怪的stream量负责吗?

如果有人在这个话题中find了解释,我认为这将有助于很多中型或大型网站控制他们的stream量!

编辑: http : //2bits.com/botnet/botnet-hammering-web-site-causing-outages.html如果确实是被感染的电脑,这是非常令人担忧的地址数量涉及。 我们将为Apache执行这个脚本来阻止所有的stream量:

 # Referer is empty RewriteCond %{HTTP_REFERER} ^$ # User agent is bogus old browser RewriteCond %{HTTP_USER_AGENT} "Gecko/2009042316 Firefox/3.0.10" # Forbid the request RewriteRule ^(.*)$ - [F,L] 

从埃内斯托更新

中等西class牙语的一般新闻网站,几天之后注意到一些不相关的新闻的高stream量。

不pipe是什么,它加载完整的HTML,因为我们注意到,由于页面视图计数,我们通过数据库更新增加页面加载后。

我们只注意到每天有一个或两个url。

很多请求(7000-12000)在几秒钟内通过同一个URL,从不同的IP分布在当天。 第二天,其他url的目标。

没有引用。

针对性的文章出现在Google新闻上,但我们不能保证它是相关的。

Google Analytics(分析)无法将其识别为合法stream量。 我们有超过8000点击和GA的文章只有25左右的报告(我假设JavaScript没有被解释)。


从旧版本升级

为你添加一些数据点。

机器人与浏览器不认为这个UA是一个机器人(还)。

在我拥有日志的stream量最高的站点上,截至目前为止,2012年5月的使用情况显示,此UAless于1%的stream量。 UA请求的很大一部分显得合法(例如,加载所有预期的资源)。 这与2012年2月基本相同。

这个网站的首页很less更新,所有的dynamic内容被robots.txt阻止。


这可能来自Genieo。 他们已经更新了他们的应用程序以使用新的用户代理:Mozilla / 5.0 +(compatible; + Genieo / 1.0 + http://www.genieo.com/webfilter.html )。 它的命中方式与原始用户代理的模式相同,但现在他们似乎认同自己。 如果您查看其用户代理中的URL,他们甚至会承认,他们可能已经或可能仍然在为某些网站生成过多的stream量。 – dflaw


Mike Fagan更新

我们一直在与我们所认为的DDOS攻击数周之久的战斗。 我们刚开始看到Genieo是这些攻击的代表。 以前我们看到“Mozilla / 5.0(Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10)Gecko / 2009042316 Firefox / 3.0.10(.NET CLR 3.5.30729)”和大量的“ Mozilla / 5.0(Windows NT 6.1; rv:11.0)Gecko / 20100101 Firefox / 11.0“。 10k +个不同的IP,每天要求100万个请求,只有3或4个页面,其中相同的IP请求页面100+次,而不需要额外的资源或广告。 我的发现是这些IP实际上没有到我们网站上的任何其他页面。

我联系了Genieo,这是他们的回应:

“感谢您与我们联系。

旧版本的Genieo可能会导致您描述的stream量负载。 对由此造成的不便,我们深表歉意。 我们昨天发布并更新了这个解决scheme,我们应用程序的数据加载将在接下来的24小时内消失。 我们相信我们通过向新用户介绍,为您的网站做了很好的服务。 我们没有正确评估,因为我们的安装基础正在增长,它可能会导致一些坐在超载。

Genieo是个人报纸或智能RSS阅读器。 这是一个智能语义个性化过滤的客户端RSS阅读器。 Genieo应用程序通过执行语义分析,从用户喜爱的站点“阅读”文章的RSS数据,并针对用户感兴趣的领域进行过滤。 如果文章符合用户兴趣,则应用程序在用户主页中显示文章的标题和片段。 点击标题将导致文章的网站 – 您的网站。 Genieo代理是自治的(出于隐私的原因); 它运行在最终用户机器上,这就是为什么你看到代理从许多不同的IP访问你的网站。

Genieo的大部分数据来自用户的正常RSS源,但是Genieo还添加了一些新的新闻站点的内容,这些内容以前没有被用户注册(对于偶然性和多样性)。 Genieoalgorithm查找“热门”文章,Twitter热门热门点击,最受欢迎的YouTube和Google新闻聚焦并检查是否符合用户兴趣

我们并不知道这是造成一些网站的负载问题。 一旦引起我们的注意,我们用防止负载峰值的新版本更新当前用户。

最好的祝福,

-Dotan

PS:我们以前使用过“Mozilla / 5.0(Windows NT 6.1; rv:11.0)Gecko / 20100101 Firefox / 11.0”(由于技术问题),但所有当前的Genieo用户都应该使用Genieo用户代理过去几周)“

我认为用户dflaw发现了它。 这是来自Genieo的软件。 我们做了一些testing并与他们联系。 所有结果在这里公布。