Articles of wget

WGet或cURL:镜像网站从http://site.com和没有内部访问

我试过wget -m wget -r和一大堆变体。 我在http://site.com上获得了一些脚本中的一些图像,甚至没有使用fscking -p参数。 唯一的HTML页面是index.html,还有几个引用,所以我很茫然。 在cURL开发者网站上的curlmirror.pl似乎也没有完成任务。 有什么我失踪? 我已经尝试了不同级别的recursion,只有这个URL,但我感觉我失去了一些东西。 长话短说,有些学校允许学生提交networking项目,但是他们想知道如何为教师评分而收集所有内容,而不是去所有的外部网站。 更新 :我想我找出了这个问题。 我虽然到其他网页的链接是在下载的index.html页面。 我走了。 发现页面的页脚(包含所有导航链接)由JavaScript文件Include.js处理,该文件读取JLSSiteMap.js和其他一些JS文件以进行页面导航等。 因此,wget不会select其他的依赖关系,因为很多这种垃圾不是在网页上处理的。 我如何处理这样的网站? 这是几个问题的案例之一。 如果wget无法parsingJavaScript,我认为做得不多。

在Unix下载Git Zipball

我试图下载一个git repo的zipball: 例如 wget https://github.com/zeromq/jzmq/zipball/master 这在networking浏览器中正常工作,但在unix文件得到一个奇怪的名字…我该怎么做?

找出我的服务器上正在运行的wget

在我的access.log中,我看到来自127.0.0.1的请求,并检索服务器的“/”,然后引用所有的graphics和CSS。 这种情况经常发生,每5分钟一次。 我想知道为什么和如何运行wget。 我改变了/etc/wgetrc “referer”,以validation它是本地的wget可执行文件,使这些调用,这是。 在crontab中找不到任何可疑的东西。 服务器正在运行munin-node。 莫宁插件可以做这个吗?

如何使wget相信我的自签名证书(不使用–no-check-certificate)?

Ubuntu 12.04 OpenSSL 1.0.1 14 Wget 1.13.4 我的设置: 创build我们自己的CA( our_own_ca.crt ) 生成一个用上面的CA签名的证书( graphite.local.crt ) 将该证书和CA证书连接成一个捆绑文件 Nginxconfiguration: ssl_certificate /etc/ssl/certs/graphite.local.crt; ssl_certificate_key /etc/ssl/certs/graphite.local.key; ssl_client_certificate /etc/ssl/certs/our_own_ca_chained.crt; 有: our_own_ca_chained.crt = graphite.local.crt + own_own_ca.crt 根据/usr/share/doc/ca-certificates/README.Debian ,将此CA安装到可信存储中,我只需将其复制到/usr/local/share/ca-certificates/ ,然后运行update-ca-certificates 。 这是输出: Updating certificates in /etc/ssl/certs… 1 added, 0 removed; done. Running hooks in /etc/ca-certificates/update.d…. Warning: there was a problem reading the certificate file […]

如何设置index.html将wget查询redirect到其他页面/文件?

如果我的服务器在example.com ,正在运行 $ wget example.com 只会下载文件index.html 。 我怎样才能使wget 下载另一个文件,而不是index.html 沿索引,html下载这个文件 我可以find所有的redirectpubkey.asc是我的文件): <meta http-equiv="Refresh" content="seconds; url=pubkey.asc "> <script language="javascript"> window.location.href = "http://example.com" <link rel="canonical" href="pubkey.asc"/> <script> document.location.href="pubkey.asc";</script> <script>window.location.href='pubkey.asc';</script> <meta http-equiv="refresh" content="0; url=pubkey.asc" /> PS:我在这里发布而不是web.stackexchange,因为涉及wget机制。

wget 5xx错误代码处理

我正在运行一个使用wget的shell脚本,并通过networking拉东西,我的问题是有没有办法告诉wget一旦中止500错误代码中止?

wget – 指定目录并重命名文件

我试图下载多个文件,需要重新命名,我怎么做,并指定我想要他们下载到的目录? 我知道我需要使用-P和-O来做到这一点,但似乎并没有为我工作。 我正在写入这个PHP脚本,并在UNIX上运行。

在cron中使用lynx或wget来调用一个php脚本?

我正在检查一个特定的设置,他们有他们的crontab如下: 0 * * * * lynx http://www.example.com/cron/scriptA.php 当然,这依赖于“安全防护”的原则,因为互联网上的任何人知道这些文件的位置,都可以打电话给他们,并有可能使服务器超载。 除此之外,上面这个脚本运行的“模式”有没有什么内在的错误。 当我以root身份从命令提示符testinglynx http://www.example.com/cron/scriptA.php时 ,它促使我下载一个会话cookie,所以我想我至less应该修改上面的内容: lynx -accept_all_cookies http://www.example.com/cron/scriptA.php 或者我应该使用: wget -q -O /dev/nul http://www.example.com/cron/scriptA.php

wget ftp连接在PASV命令后失败

在尝试将所有文​​件从一个Web服务器(“源”)传输到另一个(“目的地”)时,wget命令通过FTP进行连接,但无法继续执行PASV命令。 我使用SSH连接到“目标”服务器(共享主机上的一个Linux机器)来运行wget命令。 “源”服务器是Microsoft服务器,而我的桌面上的FTP客户端没有问题。 以下是我用来启动传输的命令: wget -m ftp://username:'password'@sourceserver.com login成功,然后发出这些命令: ==> SYST … done. ==> PWD … done. ==> TYPE I … done. ==> CWD not needed. ==> … couldn't connect to xxx.xxx.xxx.xxx port 1128: Connection timed out Retrying. 由于“无法连接”错误,在每次重试时,它会尝试一个不同的端口号(不是21,它已经成功连接)。 我第一次记下这个错误,它尝试了487X范围内的端口。 我不能确定问题是在Microsoft(“源”)服务器端还是在Linux(“客户端”)端。 思考?

wget – 只有保存返回码是200,否则删除

我有一个脚本每隔几分钟检查我的公共IP地址。 问题是ISP有时会给我caching的页面(我知道,我已经使用了wget中的所有相关参数,isp是由一堆无能为力的so-and-sos形成的,这显然是他们自己的超高效caching服务器)或由我自己的路由器所做的错误页面。 结果wget保存错误页面,当它应该保存我的IP地址。 编辑: 我用什么来检测IP地址的变化 http://paste.debian.net/292602/