我想从X网站保存/下载PDF文件,然后将所有这些PDF文件合并成一个,这样我就很容易一次看到所有这些文件。
我做了什么,
从网站获取pdf
wget -r -l1 -A.pdf --no-parent http://linktoX
将pdf合并为一个
gs -dNOPAUSE -sDEVICE=pdfwrite -sOUTPUTFILE=Combined_`date +%F`.pdf -dBATCH file1.pdf file2.pdf file3.pdf
我的问题是,我想在一个脚本中自动完成这一切,所以我不必每天都这样做。 这里新的pdf是每天在X中添加的。
那么,我怎样才能做到上面的第二步,没有给出所有的file*.pdf完整列表,我试着在第二步中做file*.pdf ; 但是它以随机顺序合并了所有的pdf。
接下来的问题是,每天的文件总数* .pdf是不一样的,有时5 pdf有时10 …但不错的东西是命名为file1.pdf file2.pdf …
所以,我需要一些帮助来完成上面的步骤2,所有的PDF文件按顺序组合,我不必明确指出每个PDF的名称
谢谢。
更新:这解决了这个问题
pdftk `ls -rt kanti*.pdf` cat output Kanti.pdf
我做了ls -rt , file1.pdf下载了file1.pdf ,然后是file2.pdf ,等等…只是做了ls -t把file20.pdf放到了开始,把file20.pdf放在了最后…
而不是文件* .pdf,你可以通过使用反引号(例如ls ...来输出你想要的另一个命令的文件列表,如chmeee的答案。 你应该可以像这样使用你的原始ghostscript命令:
这将按照修改datesorting文件,最早的文件是:
gs [...] `ls -rt file*pdf`
这将从第5个字符开始按数字sorting:
gs [...] `ls | sort --key=1.5 -g`
尝试pdftk并使用像这样sorting:
pdftk `ls files*pdf | sort` cat joined.pdf