Wget – 从http位置下载所有链接(不是recursion的)

我有一个链接到一个像这样的结构的http页面:

父目录 –
[DIR] _OLD / 01-Feb-2012 06:05 –
[DIR] _Jan / 01-Feb-2012 06:05 –
[DIR] _Dec / 01-Jan-2012 06:05 –
…… [DIR] _Apr / 01-May-2011 06:05 –
[DIR] _Mar / 01-Apr-2011 06:05 –
[DIR] _Feb / 01-Mar-2011 06:05 –
[DIR] WEB-INF / 21-Aug-2009 13:44 –
[] nohup_XXX_XXX21.out 14-Feb-2012 09:05 1.6M
[] XXX_XXX21.log 14-Feb-2012 09:04 64K
8.0K。[] XXX_XXX21_access.log 14-Feb-2012 08:31 8.0K
[] XXX_XXX21_access.log00013 14-Feb-2012 00:01 585K

我只想download根目录中存在的文件… xxxx文件。

我有一个解决scheme使用

curl -U Mozilla http://yourpage.com/bla.html > page grep -o http://[^[:space:]]*.*log* page > links wget -i link 

但我不知道只有使用wget才能做到这一点?

所有来自根目录匹配模式的文件* .log *:

 wget --user-agent=Mozilla --no-directories --accept='*.log*' -r -l 1 http://yourpage.com/bla.html 
  • –user-agent = Mozilla设置User-Agent头
  • –no-directories保存当前目录中的所有文件
  • –accept ='* .log'接受的扩展名(模式)
  • -rrecursion
  • 一级recursion

你可以避免去掉html链接(可能容易出错),但是要花费更多的时间来请求服务器。