谷歌的networking爬虫下载二进制文件?

我的Google-fu现在正在让我失望。

我试图找出Google的networking爬虫是否在蜘蛛网站下载非图像二进制文件。 我知道它下载(和索引)的图像和PDF文件,但.zip,.dmg等?

我的客户在他们的网站上提供了很多软件包供下载,他们正试图弄清楚search引擎是否占用了涉及这些文件的大部分带宽

你的第一个问题的答案似乎是“也许”:

Google可以索引哪些文件types?

Google可以索引大多数types的页面和文件的内容。 查看最常见的文件types。

但是,常见文件types的链接都是文本。

即使你search像Windows Installers(.msi)这样的二进制文件 ,你也可以得到一个包含该文件的页面的链接,或者直接链接到该文件,但Google 几乎肯定会根据链接的内容决定如何编制索引而不是通过下载和解密二进制文件的内容。

至于你的主要问题 , 谷歌推荐的方法来检查机器人是否击中你的网站是使用反向DNS查找:

 $ host 66.249.66.1 1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com. 

请记住, Google的使命是“组织世界的信息,并使其全面可用和有用”。 这意味着他们正在不断创新,尝试以非search的方式对非文本数据进行索引。 为了扩大ceejayoz的想法,就是因为昨天他们没有这样做,并不意味着他们明天就不会这样做:谷歌将尽一切可能做到明天!

为什么不检查access_log来查看用户代理或请求主机是什么? 这样,您甚至可以通过为每个请求添加数据stream量来分辨Google(或其他搜寻器)带宽的带宽。

我最近注意到我的web服务器的stream量出现了一个不寻常的高峰。 查看网站统计数据显示,我网站上的一小组大二进制文件已经被一组看似相关的IP地址快速下载。 我用urlquery.net找出谁拥有这些IP,发现他们都是谷歌的。

我来到这里寻找答案,但在阅读别人的评论时,我意识到Google可能正在扫描恶意软件的二进制文件,或者至less将其提交给恶意软件检测服务进行扫描。 我们知道,Google会在网站上检测并标记恶意软件,因此有理由认为这样做涉及下载相关文件。

谷歌的“如果您的网站被感染”页面说:“使用网站pipe理员工具中的Google抓取工具来检测恶意软件”。

还要注意,这些文件并没有出现在Google的search结果中,大概是因为我使用了robots.txt来禁止索引这些文件。 假设我是对的,当Google发现一个从公共网页链接的二进制文件时,它将扫描文件中的恶意软件,而不piperobots.txt如何,但是只有在robots.txt允许的情况下才会索引该文件。 我认为这正是他们应该做的,只要扫描不经常。

更新:Google似乎每十天左右就会这样做。 这将影响我的带宽限制。