Articles of wget

curl和wget尝试一个ipv6连接

在我的专用服务器(由OVH托pipe)上运行全新安装的Ubuntu 14.04,curl和wget需要大约10秒来完成一个简单的请求。 $ curl -v google.com * Rebuilt URL to: google.com/ * Hostname was NOT found in DNS cache 只有在10秒后它才会返回一些东西。 所以我决定在这个上运行strace : write(2, "Hostname was NOT found in DNS ca"…, 36) = 36 socket(PF_INET6, SOCK_DGRAM, IPPROTO_IP) = 3 close(3) = 0 mmap(NULL, 8392704, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS|MAP_STACK, -1, 0) = 0x7f0a24fb8000 mprotect(0x7f0a24fb8000, 4096, PROT_NONE) = 0 clone(child_stack=0x7f0a257b7f70, […]

wget和漂亮的url

为了自动化东西,我需要recursion下载一个网页。 我正在使用wget,因为它可能是最适合程序员的工具,使用-r标志触发链接跟随。 wget,hovewer,不处理漂亮的url,即http://webpage/index.php/my/pretty/link ,将它们视为子目录。 有没有解决这个问题? (我宁愿不修改该网页的源代码) 干杯,MH 编辑:问题解决了 谢谢你的洞察力回复! 我已经设法解决这个问题 – 虽然对所提到的网页做了小的修改。 我做的很简单:我已经使用我的服务器的URL重写function和redirect的URL从http:// webpage / my / pretty / link到http://webpage/index.php/my/pretty/link 。 然后,使用以下wget标志: wget –mirror –page-requisites –html-extension –convert-links http://webpage/ 瞧! 这一切都是完美无缺的(在这个过程中还有一些直接的东西,但是从某个angular度来看,从这个angular度来处理它是微不足道的)。

使用wget获取密码保护的网站(trac wiki页面)

我想写一个bash脚本,它会通知我关于trac wiki时间表的变化。 不幸的是,我不能“login”(它需要cookie的下一个login)。 wget http://someserver.com/trac/xxx/login \ –save-cookies=cookies –keep-session-cookies wget http://someserver.com/trac/xxx/login \ –load-cookies=cookies \ –save-cookies=cookies.new –keep-session-cookies\ –post-data=user=viroos&password=myPassword 我得到: Error 400: Bad Request 我也尝试了–user –password选项: wget –no-check-certificate –user viroos –password myPassword\ https://someserver.com/trac/xxx/timeline?ticket=on&changeset=on&milestone=on&wiki=on&blog=on&max=50&daysback=90&format=rss 但是这只下载login页面。 我究竟做错了什么?

CURL,WGET的替代品

有谁知道任何curl和wget的替代品? 我正在寻找的关键function要求是能够对已知的URL执行HTTPS GET请求。 我正在寻找替代品的原因是,我试图从目前没有安装wget或curl的服务器执行连接testing。 有关的服务器是在严格的更改控制下,所以安装新的软件是一个禁忌。 安装在服务器上的操作系统是AIX。

我怎样才能让wget只下载页面而不是css图像等?

我想用wget下载整个网站,但是我不想用wget下载图片,video等。 我试过了 wget -bqre robots=off -A.html example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″ 但是当我这样做,它不下载.php文件,只是下载静态.html文件。 有没有解决这个问题的wget?

Ubuntu 11.10,使用wget / curl与ssl失败

在Ubuntu的全新安装中,使用wget时出现以下错误: wget https://test.sagepay.com –2012-03-27 12:55:12– https://test.sagepay.com/ Resolving test.sagepay.com… 195.170.169.8 Connecting to test.sagepay.com|195.170.169.8|:443… connected. ERROR: cannot verify test.sagepay.com's certificate, issued by `/C=US/O=VeriSign, Inc./OU=VeriSign Trust Network/OU=Terms of use at https://www.verisign.com/rpa (c)06/CN=VeriSign Class 3 Extended Validation SSL SGC CA': Unable to locally verify the issuer's authority. To connect to test.sagepay.com insecurely, use `–no-check-certificate'. 我已经尝试安装CA证书和configurationCA证书,他们似乎都安装在/ etc / ssl / […]

如果wget的进展该怎么办:mega不会再削减它了?

我有脚本来下载队列中的大文件。 现在我真的很感激,如果我有一个体面的日志。 指定-o或-a选项显然是专门为此做的,但是到我编写这个“非常大的文件”的时候,正如手册页所述,不再是50米的大小,而是千兆字节。 –progress=dot:mega产生1000行的输出(显然是3000 * 80 dots('。'))只是一个3GB的文件。 所以我想知道:有没有什么办法来定制进度风格设置,以便我可以使用日志function?

如何在使用wget时排除某些目录?

我想从FTP下载一个目录,其中包含一些源代码。 最初,我这样做了: wget -r ftp://path/to/src 不幸的是,目录本身是SVN签出的结果,所以有很多.svn目录,爬上它们需要更长的时间。 是否可以排除这些.svn目录?

wget收到文件并挂起

我试图打败奇怪的问题 – wget获取文件,将其保存到磁盘并挂起。 这里是细节: wget –server-response –ca-directory=/etc/ssl/certs –no-dns-cache -T 1 –read-timeout=1 –header="Connection: close" https://api.vk.com/method/users.get?uids=1&fields=first_name,last_name,photo,photo_big 详细日志: Setting –server-response (serverresponse) to 1 Setting –ca-directory (cadirectory) to /etc/ssl/certs Setting –dns-cache (dnscache) to 0 Setting –timeout (timeout) to 1 Setting –read-timeout (readtimeout) to 1 Setting –header (header) to Connection: close DEBUG output created by Wget 1.11.4 on linux-gnu. –2015-05-06 […]

如何刷新用`wget –mirror`创build的在线网站镜像?

一个月前,我使用“ wget –mirror ”来创build我们的公共网站的镜像,以便在即将到来的计划维护窗口中临时使用。 我们的主网站运行HTML,PHP和MySQL,但镜像只需要HTML,不需要dynamic内容,PHP或数据库。 以下命令将创build一个简单的我们网站的在线镜像: wget –mirror http://www.example.org/ 请注意, Wget手册中说–mirror “目前相当于-r -N -l inf –no-remove-listing ”(人类可读的等价物是“–recursive –timestamping –level = inf -没有去除上市。 现在是一个月后,大部分的网站内容已经改变。 我想要wget检查所有页面,并下载任何已更改的页面。 但是,这是行不通的。 我的问题: 我需要做些什么来刷新网站的镜像,删除目录并重新运行镜像? http://www.example.org/index.html的顶级文件没有改变,但还有很多其他的文件已经改变。 我以为所有我需要做的就是重新运行wget –mirror ,因为–mirror意味着标记 – recursion的“指定recursion下载”和 – –timestamping “不要重新检索文件,除非比本地更新”。 我认为这将检查所有的网页,只检索文件,然后我的本地副本。 我错了吗? 但是,wget不会在第二次尝试时递解该网站。 'wget –mirror'会检查http://www.example.org/index.html ,注意这个页面没有改变,然后停下来。 –2010-06-29 10:14:07– http://www.example.org/ Resolving www.example.org (www.example.org)… 10.10.6.100 Connecting to www.example.org (www.example.org)|10.10.6.100|:80… connected. HTTP […]