针对主机群集的Apache访问日志parsing

我们已经使用awstats一段时间了parsing我们的apache服务器日志成为结算部门的格式。

一组自定义的python脚本正在使用来生成基于从托pipe集群/服务器场中的每个服务器传递的合并日志。

我目前面临的问题是，对于某些项目，我们的日志大大增加，有些日志在未压缩的日志中产生了大约30GB的日志。 awstats不是parsing器的最高内存效率，并且会使用1GB的内存来处理这些日志（通过比较我的python脚本+正则expression式在450kb的内存中）。

我需要的是替代awstats，可以公平地处理大型日志文件，并产生“计费友好”输出。

统计应包括，带宽，独特的访问，每页独特的页面服务等…

理想情况下，这也应该允许我们导入历史Awstats数据（目前在文本文件中）。

所以总的来说，我的问题是，有没有什么软件可以做到这一点？

由于这一年没有得到答复，我以为我会在我的计划上发布更新。

我将利用python多处理来提供日志的分布式处理，使用自定义map + reduce方法。

如果你发现这个问题，不想“自己动手”，那么有一些hadoop项目可能会有所帮助（我build议看看猪）。