这是一个正常的networking爬虫或其他东西？

我在我的大学为一个部门运行了一个小型的apache2networking服务器，我注意到访问日志中充满了如下信息：

“GET / path / on / my / site / 7z | aac | arc | arj | asf | asx | avi | bin | csv | doc | exe | flv | gif | gz | gzip | hqx | jar | jpe | g | js | MP（2 | 3 | 4 |例如？）| MOV（即）|？MSI | MSP | PDF | PHPS | PNG | PPT | QTM？| RA（M | R）|？海|坐|焦油| TGZ HTTP | 1.0 | 200 22932 | | | | | | | | | | | | | | | | |

这似乎是每天每隔几秒发生一次，每次都在我们的网站上有不同的path，而且这些都来自我大学内的一个IP地址。有时候只有path，没有“7z | aac | arc | arj …”。我对于运行一个networking服务器很陌生，所以这对于专业人员来说可能是显而易见的 – 我是否被简单地抓住了，或者这是我应该阻止的险恶吗？

看看HTTP代理string。（这也应该在你的访问日志）这可能会帮助你找出/它来自哪里。

它看起来不像正常的networking爬虫请求，它看起来像试图find可下载的材料。

查看正在进行此探测的主机的反向DNS查找。这也可能有帮助。

最后，只要你看到的stream量不是你想要的/期望到你自己的网站，随时阻止它。如果您没有看到来自这个IP的任何合法请求，那么它会有效地将您不想要的垃圾过载到日志中。我的build议，阻止它。

那你为什么不在大学内问呢？其中的某个人必须分配该知识产权，并且知道该知道谁或属于哪个知识产权。

从你说的你在大学networking上，这个stream量也是如此。所以有两种select：1.学生拖钓 – 不太可能，现在他们通常会有IDS和东西，而且可能已经把这个关掉了。

在任一情况下。问！阻塞可能是一个非常糟糕的主意，因为如果它是合法的，它们会为了安全而运行，而且会阻止它们，否则它们可能也会这样做。