这是一个正常的networking爬虫或其他东西?

我在我的大学为一个部门运行了一个小型的apache2networking服务器,我注意到访问日志中充满了如下信息:

“GET / path / on / my / site / 7z | aac | arc | arj | asf | asx | avi | bin | csv | doc | exe | flv | gif | gz | gzip | hqx | jar | jpe | g | js | MP(2 | 3 | 4 |例如?)| MOV(即)|?MSI | MSP | PDF | PHPS | PNG | PPT | QTM?| RA(M | R)|?海|坐|焦油| TGZ HTTP | 1.0 | 200 22932 | | | | | | | | | | | | | | | | |

这似乎是每天每隔几秒发生一次,每次都在我们的网站上有不同的path,而且这些都来自我大学内的一个IP地址。 有时候只有path,没有“7z | aac | arc | arj …”。 我对于运行一个networking服务器很陌生,所以这对于专业人员来说可能是显而易见的 – 我是否被简单地抓住了,或者这是我应该阻止的险恶吗?

看看HTTP代理string。 (这也应该在你的访问日志)这可能会帮助你找出/它来自哪里。

它看起来不像正常的networking爬虫请求,它看起来像试图find可下载的材料。

查看正在进行此探测的主机的反向DNS查找。 这也可能有帮助。

最后,只要你看到的stream量不是你想要的/期望到你自己的网站,随时阻止它。 如果您没有看到来自这个IP的任何合法请求,那么它会有效地将您不想要的垃圾过载到日志中。 我的build议,阻止它。

那你为什么不在大学内问呢? 其中的某个人必须分配该知识产权,并且知道该知道谁或属于哪个知识产权。

从你说的你在大学networking上,这个stream量也是如此。 所以有两种select:1.学生拖钓 – 不太可能,现在他们通常会有IDS和东西,而且可能已经把这个关掉了。

在任一情况下。 问! 阻塞可能是一个非常糟糕的主意,因为如果它是合法的,它们会为了安全而运行,而且会阻止它们,否则它们可能也会这样做。