如果给定一个“.log”文件，有没有办法确定日志格式？

如果我没有有关日志的types（如syslog，apache日志，IIS日志）的先前信息，有没有一种方法来确定日志types（以便它可以正确parsing）？我正在尝试为日志编写一个Grokfilter，但我不知道这些字段代表的是什么。

这些是来自日志的前几行：

14;1074585600;147.33.10.112;89ccfad2c4bbc02c91ed66055a235fca;/ls/index.php? &id=62&view=1,2,3,4,6,9&sort=,13,4&pozice=40;hXXX://YYY.shop4.cz/ls/index.php?&id=62&view=1,2,3,4,6,9&sort=,13,4&pozice=20 12;1074585600;57.66.66.138;17bff4c98f96413dbe748c9cd8822da9;/ct/?c=158;hXXX://YYY.shop3.cz 14;1074585600;194.196.100.86;e9455a109435408eb7b8e170d636d024;/klient/seznam.php;hXXX://YYY.shop4.cz/klient/zpravy.php 11;1074585600;66.77.73.176;88dc79e8eb5968d936a7d563af55bd08;/dt/?id=9354; 10;1074585601;158.196.177.79;cbf84093e4740423436abaf3c1a65ebc;/;

当然。看起来这是欧洲机器学习会议和欧洲数据库发现挑战2005竞赛中的知识发现原则和实践会议的日志。他们已经有一个页面描述了数据格式和关于网站数据的FAQ 。

（我可以告诉那些只是通过目睹他们的一些旧的Unix时间戳… 2004年份，这些都是。）

这不是任何标准的日志格式（和BTW，系统日志是协议，而不是日志格式）。

就方法论而言，我只是开始看线。通过查看数字的大小，我可以看出第二个字段是Unix时代的date。显然，第三个字段是一个IPv4地址。第五个字段是32个hex数字，所以很可能是一个MD5和。下一个字段看起来像URL和查询的分层部分。最后一个字段看起来像一个URL，我倾向于推测这是一个引用者。

所以，它看起来像一个Web服务器日志。

我使用谷歌search哈希，因为我很好奇，看看这个数据是否出现在其他地方。果然，其中一个哈希值出现在我上面链接的页面中。