我怎样才能让wget只下载页面而不是css图像等?

我想用wget下载整个网站,但是我不想用wget下载图片,video等。

我试过了

wget -bqre robots=off -A.html example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″ 

但是当我这样做,它不下载.php文件,只是下载静态.html文件。

有没有解决这个问题的wget?

您已经明确告诉wget只接受以.html作为后缀的文件。

假设php页面有.php ,你可以这样做:

 wget -bqre robots=off -A.html,.php example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″ 

请注意,这将下载呈现的HTML,而不是PHP的来源。 如果页面充分dynamic,则可能无法获得预期的渲染结果。

但是,我build议像httrack这样的其他工具可以做得更好 – 这取决于你需要做什么。

-A取一个列表,所以-A.html,.php应该适合这个账单。 你也应该看一下-R(它也需要一个拒绝列表)。