使用wget下载数据文件

05 May 2011

在数据处理过程中对于一些简单的文件传输可以通过wget进行下载,基本的用法很简单:

wget $http_url

不过很多情况下可能会有更复杂的一些条件,这里例举其中两种:

1. 公司网络访问外网需要通过代理

解决方法:设定http_proxy环境变量,例如:

export http_proxy=http://server:port

 

2. 所访问的网页需要进行登录

解决方法:使用wget的cookie参数,例如:

wget --keep-session-cookies --save-cookies $cookie_file -O /dev/null --post-data="log=user&pwd=password" $login_url

wget --keep-session-cookies --save-cookies $cookie_file --load-cookies $cookie_file $http_url -O $output_file

其中,$cookie_file是用来存储cookie内容的文件名,而post-data参数的值可以通过"Live HTTP headers"等工具查看。


下一篇: Java 开发 2.0: 使用 Amazon SQS 进行基于云计算的消息传送 →

blog comments powered by Disqus