我正在使用wgetrecursion下载有用的网站: wget -k -m -r -q -t 1 http://www.web.com/ 但外部网站也随着我想要的网站下载。 如何防止这个外部网站被下载?
使用wget / curl / whatever从ftp服务器recursion检索整个目录列表的最快方法是什么? 我不需要下载任何文件,只需要目录和文件名。 基本上什么ls -R做。
我的应用程序位于负载均衡器的后面,每隔一段时间我都希望对每台计算机进行状态检查,以了解每台计算机上返回index.html文档所需的时间。 该脚本如下所示: for host in 192.168.0.7 192.168.0.8 192.168.0.9; do result=$( ( time wget -q –header="Host: domain.tomonitor.com" http://$host/ ) 2>&1 | grep real | awk '{print $2}' ) date=$(date) echo "$date, $host, $result" done 由于应用程序认为它在domain.tomonitor.com ,所以我在wget请求头中手动设置了它。 它为grep “真实”的时间, awk独自的时间,倾倒到一个$ resultvariables。 从经验上讲,它似乎作为一个基本的手动检查工作相当不错 – 我的各种服务器的响应时间通常需要2-3秒,除非有一些不平衡的连接正在进行。 我直接从我的Mac OS X笔记本电脑对我们的专用networking运行它。 有一天,我想知道是否可以使用cronlogging结果。 我惊讶地发现它有亚秒级的反应,例如0.003秒。 尝试使用名为Geektool的OS X桌面组件将脚本结果安装到我的桌面,并看到类似的亚秒级报告。 我怀疑差异是由于一些用户错误 – 为什么我运行的time wget命令的一些原因将无法正常工作。 任何人都可以告诉我为什么运行这个脚本所花费的时间与用户(我手动运行)和系统(cronjob或geektool)之间的差异如此之大,以及我如何纠正这种差异?
这是情况:我有一个FTP服务器上可以包含任意数量的文件tar.gz文件。 现在我想要完成的是将这个文件通过Hadoop作业stream式传输并上传到HDFS。 Hadoop这个事实并不重要,最后我需要做的是编写一些shell脚本,将这个文件转换成wgetforms,并将输出写入stream中。 我真的需要使用stream的原因是会有大量的这些文件,每个文件将是巨大的。 如果我有一个gzip文件,这样做很容易,我正在做这样的事情: wget -O – "ftp://${user}:${pass}@${host}/$file" | zcat 但是我甚至不确定这是否可能用于tar.gz文件,特别是因为存档中有多个文件。 我有点困惑,为此采取什么方向,任何帮助将不胜感激。
任何人都可以帮助确保wget将以最低指定的下载速度获取文件的参数吗?
我用这个命令查找服务器的IP地址。 有人能解释一下这个命令的意思吗? 我想学习。 到目前为止,我知道:“wget”是一个免费的实用程序,用于从Web非交互式下载文件[ http://linux.about.com/od/commands/l/blcmdl1_wget.htm] “-O”将文件写入文件 “-q”安静(没有输出) 但为什么要在两者之间使用“ – ”?
有没有其他类似wget的应用程序? 如果是,你可以发布一个链接?
我想通过使用.pacconfiguration的代理使用wget。 当我GOOGLE了一下,我发现.pac是一个JavaScript文件,wget无法parsing它基于以下url http://www.linuxquestions.org/questions/linux-networking-3/i-want-to-use-wget-configured-with-a-wpad-dat-proxy-636922/ 有什么解决办法吗? 提前致谢
我在Tomcat服务器上运行一个Web应用程序。 服务器代码中有一个很难察觉的问题,导致它每天崩溃一次或两次。 有空的时候,我会尽力纠正。 但直到那一天,在一个有问题的情况下,重新启动tomcat(/etc/init.d/tomcat7 restart)或基本上重新启动机器也是现在看来相当不错的解决scheme。 我想用wget而不是grep或其他东西来检测服务器的活力,因为即使tomcat正在运行我的服务, wget localhost:8080/MyService/ 输出 –2012-12-04 14:10:20– http://localhost:8080/MyService/ Resolving localhost… 127.0.0.1 Connecting to localhost|127.0.0.1|:8080… connected. HTTP request sent, awaiting response… 200 OK Length: 2777 (2.7K) [text/html] Saving to: “index.html.3” 100%[======================================>] 2,777 –.-K/s in 0s 2012-12-04 14:10:20 (223 MB/s) – “index.html.3” saved [2777/2777] 当我的服务到了。 和输出 Resolving localhost… 127.0.0.1 Connecting to localhost|127.0.0.1|:8080… failed: […]
当我尝试通过HTTP下载文件时,下载有时在大约30 MB之后停止。 下载速率下降到0 B / s,没有数据继续。 当我停止下载并再次恢复时,下载仍然挂起。 但是当我再次从字节0重新下载它,一切再次停止时,一切正常工作到30 MB。 有时候,几个小时后,它再次没有问题的工作。 下载停止时文件中的位置是可变的,但大部分时间大约是30-35 MB。 作为一个下载pipe理器,我使用wget。 使用curl和其他下载pipe理器也会发生同样的行为。 错误发生独立于我从下载的服务器。 我在networking中的其他Linux计算机上也观察到这个错误。 我的networking上的所有计算机都在x86上运行Gentoo Linux。 我networking上的所有互联网连接都通过我的networking上的一台服务器运行,该服务器在端口80上运行透明的Squid代理。该服务器连接到由Deutsche Telekom AG公司的Speedport W 700V的路由器。 该路由器使用ADSL连接到互联网,具有448 kbit / s的下行速度和96 kbit / s的上行速度。 我几乎可以肯定,我的透明代理不是问题。 我没有解决这个问题就关掉了。 我也直接通过WLAN连接到路由器而不解决问题。 我也尝试通过HTTP下载另一个端口。 此外,我试图用我的电脑上的gateway6隧道下载IPv6文件,导致完全相同的问题。 现在奇怪的是,一切工作正常使用FTP和HTTPS(也在同一台计算机上的wget)。 更奇怪的是,当我使用FTP或HTTPS恢复挂载HTTP的下载时,以这种方式下载几个字节,停止wget,然后使用HTTP再次恢复,它会再次加载数据! 但几MB后,它可能会再次停止。 不幸的是,以这种方式下载的文件总是被破坏(MD5总和不正确),所以在某些时候,一定有假的数据。 我试图在下载的文件中searchHTML错误消息,但是grep -i html没有find任何东西。 (我想不出在文件中searchGZIP压缩的HTML错误消息的方法,所以我没有尝试。) 我尝试在wget上使用strace时,无法恢复下载,您可以在pastebin上find整个输出。 重要的路线每秒重复一次: clock_gettime(CLOCK_MONOTONIC, {326102, 62176435}) = 0 ) = 1 write(2, "78% […]