Articles of wget

如何在Apache根级别阻止一些机器人和引用页面

当我使用Lighttpd时,可以通过这样的条目轻松实现。 所以所有的网站都受到保护 Wget机器人: $HTTP["useragent"] =~ "Wget" { $HTTP["url"] =~ "^/tagi(.*)" { # $HTTP["url"] =~ "" { url.access-deny = ( "" ) } $HTTP["url"] =~ "^/tags(.*)" { url.access-deny = ( "" ) } $HTTP["url"] =~ "^/kom.php(.*)" { url.access-deny = ( "" ) } $HTTP["querystring"] =~ "^(.*)strony(.*)" { url.access-deny = ( "" ) } $HTTP["querystring"] =~ "^(.*)page(.*)" […]

iptables将tcpredirect到checkip.dyndns.org从localhost到127.0.0.1:8118

我已经尝试了几种不同的规则组合,似乎没有任何工作。 我知道你不能使用prerouting表来处理来自localhost的请求,所以我使用了输出表,并且在使用wget的时候只是返回错误。 我有wgetconfiguration使用代理127.0.0.1:8118。 当我使用下面的命令我得到我的公共IP。 如果我更改命令以删除–no-proxy,则从我的代理获取IP。 我想通过代理使用iptables来强制对这个站点发出任何请求,而不pipe请求它的程序如何。 我本质上是试图创build一个透明的代理,但只为一个网站的请求。 系统= Debian挤压 wget命令: wget –no-proxy -q -O – checkip.dyndns.org|sed -e 's/.*Current IP Address: //' -e 's/<.*$//' 我在/etc/sysctl.conf中启用了net.ipv4.ip_forwarding = 1。 试图规则: iptables -t nat -I OUTPUT –source 0/0 –destination checkip.dyndns.org -p tcp -j REDIRECT –to-ports 8118 iptables -t nat -I OUTPUT -p tcp -d checkip.dyndns.org -j REDIRECT –to-ports 8118 […]

如果提供ip而不是域名,wget不会镜像

我试图用wget获得一个网站镜像,并遇到了一个奇怪的行为。 假设我用以下方式镜像一个名为www.example.com的内部网站,所有这些网站似乎都工作正常: wget -mkE http://www.example.com 但是,因为我需要通过IP访问服务器,而不是域名,我尝试着: wget -mkE -D www.example.com –header "Host: www.example.com" http://IPv4_ADDR 但在这种情况下,它只下载第一页并退出。 任何想法?

为什么我不能直接从oracle网站下载jdk而没有AuthParam?

用下面的命令下载,为什么它不能下载那个文件? wget http://download.oracle.com/otn-pub/java/jdk/6u35-b10/jdk-6u35-linux-i586.bin 下面的命令起作用,但是AuthParam在一段时间后可能不工作,为什么? wget http://download.oracle.com/otn-pub/java/jdk/6u35-b10/jdk-6u35-linux-i586.bin?AuthParam=1346955572_27e44512fe8ef5cb920c4c329e5f0fd8 这个AuthParam选项是如何实现的? 为什么我不能没有这个参数下载? 为什么我只能得到这个参数使用资源pipe理器? 在处理wget请求时重写oracle服务器中使用? 为什么同一个命令在一个小时后不工作,AuthParam的值是否过期? 那么服务器如何检查AuthParam的值是否过期 ? wget http://download.oracle.com/otn-pub/java/jdk/6u35-b10/jdk-6u35-linux-i586.bin?AuthParam=1346955572_27e44512fe8ef5cb920c4c329e5f0fd8 –2012-09-07 03:51:01– http://download.oracle.com/otn-pub/java/jdk/6u35-b10/jdk-6u35-linux-i586.bin?AuthParam=1346955572_27e44512fe8ef5cb920c4c329e5f0fd8 Resolving download.oracle.com… 23.67.251.50, 23.67.251.57 Connecting to download.oracle.com|23.67.251.50|:80… connected. HTTP request sent, awaiting response… 403 Forbidden 2012-09-07 03:51:01 ERROR 403: Forbidden. @KJ-SRS就是那种用来判断AuthParam是否正确的CGI程序? 是可以纯粹使用wget命令下载jdk包,而不需要在资源pipe理器中获取AuthParam wget -O jre-6u35-linux-i586.bin http://javadl.sun.com/webapps/download/AutoDL?BundleId=68284无法得到jdk 🙁 wget -O jre-6u35-linux-i586.bin http://javadl.sun.com/webapps/download/AutoDL?BundleId=68284 –2012-09-07 12:27:37– http://javadl.sun.com/webapps/download/AutoDL?BundleId=68284 Resolving javadl.sun.com… 137.254.16.64 […]

wget AWS ubuntu apache2问题

我正在尝试使用wget从我的AWS ubuntu服务器下载apache2。 我已经尝试了几个不同的选项,但都是由目录名称或index.html文件导致的文件。 目录中有3张图片和一个ogg格式的video。 这是我正在使用的wget: wget -N -np http://domainorIP/dir/dir2/dirtodownload/ -N只是更新的下载文件 -np不上升到父目录

下载并保存一个文件,certificate它是从特定date的特定服务器/url下载的?

假设该文件是通过http下载的,这可能吗? 我猜可能有一些方法使用散列和时间戳做到这一点,但我不知道你怎么可以certificate没有被篡改包括下载的文件本身。 编辑:正如vonbrandbuild议,如果源网站提供了一个签名的证书这将是一个开始。 但是,如果网站没有提供任何证书,是否有一个聪明的方式来循环在一些第三方?

为什么HTTP(S)请求不会被logging在IIS中?

我正在解决一个batch file的问题,该文件使用Wget将请求发送到在IIS 7中运行的网站。batch file运行Wget两次,第一次通过POSTlogin到站点,第二次在站点中运行一些维护代码通过一个GET。 运行batch file的服务器和托pipe站点的服务器位于同一个专用networking上。 在IIS站点日志中logging第一个POST请求。 根据Wget的输出,它似乎是多次尝试第二个GET请求 – 总共20(通常) – 但没有一个被logging。 有问题的batch file的(编辑的)内容: wget –output-document=- –save-cookies cookies.txt –keep-session-cookies –post-data "[email protected]&Password=not-the-best-password&RememberMe=false" –no-check-certificate https://example.com/account/logon?returnurl=/ wget –output-document=- –load-cookies cookies.txt –no-check-certificate https://example.com/things/stuff/maintenance-code?x=E74B15D4-414E-468C-A340-621CC901CF1B Wget(标准错误)输出的一个(编辑的)示例,用于从batch file的最新执行开始的第二个GET请求的前两次尝试: SYSTEM_WGETRC = c:/progra~1/wget/etc/wgetrc syswgetrc = C:\Program Files (x86)\GnuWin32/etc/wgetrc –2013-04-19 05:15:16– https://example.com/things/stuff/maintenance-code?x=E74B15D4-414E-468C-A340-621CC901CF1B Resolving example.com… 172.17.21.255 Connecting to example.com|172.17.21.255|:443… connected. WARNING: cannot verify example.com's certificate, issued […]

命令行工具来监视加载网站的POST / GET请求

当我使用Firefox加载网站并打开Network Profiler时,我可以看到网站正在发出的所有POST和GET请求。 我希望从命令行获得这个function。 是否有人知道一个命令行工具,我可以用它来请求页面说的Firefox HTTP头,然后监视从这个页面的所有传出的networking请求?

使用tmuxpipe理多个下载程序作为supervisorctl服务?

我有很多数据服务器,我需要通过http下载数据,一旦可用。 对于每个服务器,我都会启动一个bash “ while true ”循环,并在其中使用wget来轮询服务器以获取新数据。 为了启动所有的bash我创build了一个tmuxconfiguration,为每个循环(例如循环和wget启动一个窗口。 这增加了更容易检查正在发生的事情的好处。 我想从这个configuration创build一个supervisor -service,这将允许我一次启动,停止和重新启动这个tmux并下载它的客户端。 但是,当我退出tmux ,由于tmux的本质, bash和wget继续运行。 有没有办法,所以我可以退出一切,并重新启动一切简单supvervisorctl tmuxservice restart ?

在Docker容器上运行的Ghost不会响应来自其他容器的http请求

我正在Docker容器中设置一个ghost博客实例。 我绑定了虚拟主机服务器0.0.0.0并暴露了它正在监听的端口(端口2368)。 如果我从外部运行wget到ghost容器的ip和ghost的端口,索引被提取,但是如果我使用完全相同的ip和端口在另一个容器内运行wget,wget报告 –2014-03-20 02:58:27– http://172.17.0.5:2368/ Connecting to 172.17.0.5:2368… connected. HTTP request sent, awaiting response… 并无限期地挂起。 我想能够从另一个容器中连接到ghost实例,因为我将使用第二个容器作为nginx的反向代理(我正在使用wget,因为我想testing连接性,因为我用nginx的尝​​试导致了Gateway超时)。 这是预期的还是幽灵需要额外的configuration服务内容到另一个docker集装箱? 更新 我忘了提到“反向代理是”容器链接到鬼实例容器。