如果我没有有关日志的types(如syslog,apache日志,IIS日志)的先前信息,有没有一种方法来确定日志types(以便它可以正确parsing)? 我正在尝试为日志编写一个Grokfilter,但我不知道这些字段代表的是什么。
这些是来自日志的前几行:
14;1074585600;147.33.10.112;89ccfad2c4bbc02c91ed66055a235fca;/ls/index.php? &id=62&view=1,2,3,4,6,9&sort=,13,4&pozice=40;hXXX://YYY.shop4.cz/ls/index.php?&id=62&view=1,2,3,4,6,9&sort=,13,4&pozice=20 12;1074585600;57.66.66.138;17bff4c98f96413dbe748c9cd8822da9;/ct/?c=158;hXXX://YYY.shop3.cz 14;1074585600;194.196.100.86;e9455a109435408eb7b8e170d636d024;/klient/seznam.php;hXXX://YYY.shop4.cz/klient/zpravy.php 11;1074585600;66.77.73.176;88dc79e8eb5968d936a7d563af55bd08;/dt/?id=9354; 10;1074585601;158.196.177.79;cbf84093e4740423436abaf3c1a65ebc;/;
当然。 看起来这是欧洲机器学习会议和欧洲数据库发现挑战2005竞赛中的知识发现原则和实践会议的日志。 他们已经有一个页面描述了数据格式和关于网站数据的FAQ 。
(我可以告诉那些只是通过目睹他们的一些旧的Unix时间戳… 2004年份,这些都是。)
这不是任何标准的日志格式(和BTW,系统日志是协议,而不是日志格式)。
就方法论而言,我只是开始看线。 通过查看数字的大小,我可以看出第二个字段是Unix时代的date。 显然,第三个字段是一个IPv4地址。 第五个字段是32个hex数字,所以很可能是一个MD5和。 下一个字段看起来像URL和查询的分层部分。 最后一个字段看起来像一个URL,我倾向于推测这是一个引用者。
所以,它看起来像一个Web服务器日志。
我使用谷歌search哈希,因为我很好奇,看看这个数据是否出现在其他地方。 果然,其中一个哈希值出现在我上面链接的页面中。