awstats表示在移动到新的服务器之后,页面丢失

我将Web服务移到了新的服务器上。 我发现,在旧的服务器中,下面给出的命中数与awstats大致相同(例如,给定date5537, awstats 5557次):

 grep -v bot myaccess.log| # file contains given vhost for given date range \ grep -v rss2email|\ grep -v Slurp|\ grep -v pider| # Ignore spiders \ egrep 'HTTP/.... (200|304) '| # Catch only 200 and 304 responses \ grep -v Wget|\ grep -v Bot|\ grep -v rawler| # Ignore crawlers \ grep -v favicon.ico|\ grep -v robots.txt|\ grep -v HTTrack|\ grep -v simplepie|\ grep -v BingPreview|\ wc -l 

将以下内容添加到grep链的末尾,可以得到与awstats (3042)大致相同的页数(例如给定date为2916):

 egrep -v '(css)|(js)|(class)|(gif)|(jpg)|(jpeg)|(png)|(bmp)|(ico)|(swf) HTTP' 

现在,我搬了服务器。 很多东西都改变了: apache变成了nginx ; 日志格式改变了; awstatsconfiguration已被重写; Debian挤了喘气,6.9.5变成了7.0。

上面的大pipe道仍然接近awstats的命中(例如5521与5541),但添加排除NotPageListegrep不会:我得到,在给定的一天,2948,而awstats给出1580.(是否排除列表包含rssxml没有太大的区别)。事实上,自从服务被移动的那一天起,点击大致保持不变,而页面和访问大约减半。 我无法弄清楚为什么。

主要区别似乎是awstats 7.0中的一个新function:下载。 它假定某些文件扩展名( pdfziptxtmp3docppt等)是“下载”。 较旧的awstats版本认为这是“页面”。

我也明白,每个新版本的awstats都有一个更完整的过滤列表(例如更完整的bot列表),从而使每个新版本报告更less的页面(过度估计总是存在并且可能不可能完全消除)。 但是这个效果一定要小一些。