计算网站页数的最简单方法是什么? 我不想实际下载整个网站的本地副本,只需要在网页上进行点击即可。 是否有一个工具(或工具的组合),可以抓取所有的网页和链接,并给出总计?
快速和肮脏的方法是去谷歌和运行search,如:
网站:mydomain.com
这个例子显示了232个已知的fronde.com页面: http ://i47.tinypic.com/j0h003.jpg
这将返回谷歌在该网站上知道的页面数量。 您可能需要调整您的Google偏好设置以包含所有内容types(closuresSafeSearch),然后点击“取消某些结果”警告,然后才能为您提供最准确的计数。
手动操作比较困难。 为了发现特定网站上的所有页面,您必须下载login页面,parsing引用同一网页的链接,然后迭代下载这些HTML页面并进行扫描。 这反复地继续,直到所有链接被检查。
这种方法需要时间(尽pipe使用像HTTrack这样的工具,您可以closures非HTML内容下载以节省时间)。
这种方法也会遗漏孤立的页面,这些页面不是从网站的主页面链接的。
它的老派,但它会工作。 recursion调用这个应该可以做到。 http://search.cpan.org/dist/HTML-Parser/lib/HTML/LinkExtor.pm