使用模拟6的网站统计,我很惊讶地看到超过一百四十多个404超过54天。 我正确的看着这个吗? 这是一个不寻常的比例为404到“200 OK”页面浏览量? 我没有看到实际的URL列表中的任何404; 哪里会有一个破损的url列表? 这个网站是unix / apache上的html,WordPress和asp页面的组合,如果有的话。
Requests Status Codes 6548392 200 OK 807 206 Partial content 1830136 301 Document moved permanently 61795 302 Document found elsewhere 3091342 304 Not modified since last retrieval 3042 400 Bad request 49012 403 Access forbidden 1043694 404 Document not found 2936 500 Internal server error 411 503 Service temporarily unavailable
一般统计:
Successful requests: 9,640,541 Average successful requests per day: 183,490 Successful requests for pages: 1,620,543 Failed requests: 1,099,095 (20,066)
破碎的URL列表将在实际的日志文件中。 现在,似乎有15%的系统请求是404.这看起来exception的高。
如果我猜测我会打赌你的页面模板包含一个链接到一个破碎的图像,JavaScript或CSS文件。
快速的日志文件grep可能会显示大部分细节。
我同意这是一个相当高的数量404,但它可能是自动机器人试图利用软件中已知的漏洞。
当然,这并不完全相同,但是我在我们的Web服务器上每个月都有成千上万的404,并且分析这个URL就像是一些机器人试图对数百种不同产品(我们没有安装这些产品)进行已知的SQL注入。
这是一个巨大的初始任务,但排除利用您寻找真正的404的首选方式的利用url,它变得更加准确。
如果您无法像原先build议的那样访问原始日志,请考虑在您的网站上进行抓取以查找损坏的链接。 请参阅W3C的链接检查器 ,指定recursion检查链接文档,recursion深度是有意义的。