将awk结果限制为html请求

我正在使用awk来分析一些访问日志文件。 我目前正在使用以下内容:

awk '($9 ~ /404/)' access_log | awk '{print $9,$7}' | sort | uniq -c | sort > 404.txt 

其中返回我的访问日志中的所有404出现次数。 但是,它绝对返回所有内容 – 但我只对html页面感兴趣。

我如何修改这个只返回以.html结尾的请求的值?

你可以添加另一个正则expression式:

 awk '$7 ~ /\.html/ && $9 ~ /404/ {print $9,$7}' access_log | sort | uniq -c | sort > 404.txt