使用wget下载数据文件
五月 6th, 2011
在数据处理过程中对于一些简单的文件传输可以通过wget进行下载,基本的用法很简单:
wget $http_url
不过很多情况下可能会有更复杂的一些条件,这里例举其中两种:
1. 公司网络访问外网需要通过代理
解决方法:设定http_proxy环境变量,例如:
export http_proxy=http://server:port
2. 所访问的网页需要进行登录
解决方法:使用wget的cookie参数,例如:
wget --keep-session-cookies --save-cookies $cookie_file -O /dev/null --post-data="log=user&pwd=password" $login_url wget --keep-session-cookies --save-cookies $cookie_file --load-cookies $cookie_file $http_url -O $output_file
其中,$cookie_file是用来存储cookie内容的文件名,而post-data参数的值可以通过"Live HTTP headers"等工具查看。