针对主机群集的Apache访问日志parsing

我们已经使用awstats一段时间了parsing我们的apache服务器日志成为结算部门的格式。

一组自定义的python脚本正在使用来生成基于从托pipe集群/服务器场中的每个服务器传递的合并日志。

我目前面临的问题是,对于某些项目,我们的日志大大增加,有些日志在未压缩的日志中产生了大约30GB的日志。 awstats不是parsing器的最高内存效率,并且会使用1GB的内存来处理这些日志(通过比较我的python脚本+正则expression式在450kb的内存中)。

我需要的是替代awstats,可以公平地处理大型日志文件,并产生“计费友好”输出。

统计应包括,带宽,独特的访问,每页独特的页面服务等…

理想情况下,这也应该允许我们导入历史Awstats数据(目前在文本文件中)。

所以总的来说,我的问题是,有没有什么软件可以做到这一点?

由于这一年没有得到答复,我以为我会在我的计划上发布更新。

我将利用python多处理来提供日志的分布式处理,使用自定义map + reduce方法。

如果你发现这个问题,不想“自己动手”,那么有一些hadoop项目可能会有所帮助(我build议看看猪)。