我想用wget下载整个网站,但是我不想用wget下载图片,video等。
我试过了
wget -bqre robots=off -A.html example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″
但是当我这样做,它不下载.php文件,只是下载静态.html文件。
有没有解决这个问题的wget?
您已经明确告诉wget只接受以.html作为后缀的文件。
假设php页面有.php ,你可以这样做:
wget -bqre robots=off -A.html,.php example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″
请注意,这将下载呈现的HTML,而不是PHP的来源。 如果页面充分dynamic,则可能无法获得预期的渲染结果。
但是,我build议像httrack这样的其他工具可以做得更好 – 这取决于你需要做什么。
-A取一个列表,所以-A.html,.php应该适合这个账单。 你也应该看一下-R(它也需要一个拒绝列表)。