这里我们简要讲解一下Linux环境下curl工具的使用。curl命令是一个功能强大的网络工具,支持通过http、ftp等方式下载、上传文件。还可以用来抓取网页、网络监控等方面的开发,解决开发过程中遇到的问题。
1. curl工具的安装
在Linux环境下安装curl工具很简单,直接通过如下的命令安装即可:
2. curl命令的基本使用
如下我们列出curl工具使用时的相关参数:
上面我们可以看到curl命令参数有很多,这里我们说明一下如下几个:
1) -v, --verbose: 小写的v参数,用于打印更多信息,包括发送的请求信息,这在调试脚本特别有用。
2) -m, --max-time SECONDS: 指定处理的最大时长
3) -H, --header LINE: 指定请求头参数
4) -s, --silent: 减少输出信息,比如进度等
5) --connect-timeout SECONDS: 指定尝试连接的最大时长
6) -x, --proxy [PROTOCOL://]HOST[:PORT]: 指定代理服务器的地址和端口,默认端口为1080
7) -T, --upload-file FILE: 传输文件到目标地址
8) -o, --output FILE: 指定输出文件名称
9) -d, --data DATA:** 指定http post的内容
10) --retry NUM: 假如产生错误的情况下,执行的重试次数
11) -e, --referer: 指定引用地址
12) -I, --head: 仅返回头部信息,使用head请求
13) -X, --request COMMAND: 指定请求方法OPTIONS、HEAD、GET、POST、PUT、DELETE、TRACE、CONNECT
3. GET请求
如下我们给出一些示例,展示如何使用Get请求:
# curl http://www.baidu.com //回车之后,HTML内容打印在屏幕上;如果这里的URL指向的是一个文件或者一副图则可以直接下载到本地
# curl -i http://www.baidu.com // 在输出信息中打印包括头部消息在内的整个消息
# curl -I http://www.baidu.com // 只显示头部信息,其实这里采用的是HEAD请求,可以通过添加-v选项来查看请求与响应详细消息
# curl -v http://www.baidu.com // 显示get请求全过程解析
另外一点需要注意的是,由于&
符号在Linux shell环境下表示进程以后台方式运行,因此如果我们要传递多个参数的话,我们需要多&
符号进行转义。例如:
# curl -X GET http://127.0.0.1/aaa?acl\&age=30
这里我们可以同时用tcpdump进行抓包,来观察响应的请求与响应:
如下用wireshark打开上面抓取到的curl_output.pcap
数据包:
注意到上面的第6个数据包,后面显示TCP segment of a reassembled PDU
,其实5、6、8三个数据包合起来才是对第4个数据包的回复,这几个数据包的ack号都是一样的。请参看如下:
如下是HTTP请求与响应的一个跟踪:
4. 下载
下面给出一个具体示例:
可以看到执行命令后会有下载进度提示,完成100%后会自动退出,并且把相应的下载内容保存在-o
指定的文件中。curl命令还有一个大写的-O
选项,是按照服务器上的文件名保存到本地。如果执行
# curl -O www.baidu.com
是会报错的,提示找不到文件名,如果换成:
# curl -O www.baidu.com/index.html
就会自动保存文件为index.html。
5. 上传
下面给出一个具体示例:
6. Post方法
下面给出一个具体示例:
7. 设置referer
HTTP Referer是header的一部分,当浏览器向web服务器发送请求的时候,一般会带上Referer,告诉服务器我是从哪个页面链接过来的,服务器基于此可以获得一些信息用于处理。请参看:HTTP_REFERER
有的时候我们如果直接请求某个URL不能成功,它需要判断referer是否正确,那就可以通过-e或–referer参数模拟:
8. 指定user agent
下面给出具体使用示例:
9. 伪造cookie
下面给出具体使用示例:
10. 保存cookie
下面给出具体使用示例:
11. 定义输出显示内容
12. PUT方法
HTTP协议文件上传的标准方法是使用PUT,此时curl命令使用-T
参数:
# curl -T uploadfile http://www.upload.com/receive.cgi
13. 补充:表单处理
我们前面虽然也提到了post表单元素,但是我们在这里在做一个补充。
1) 在WEB页面设计中,form是很重要的元素。Form通常用来收集并向网站提交信息。提交信息的方法有两种,GET方法和POST方法。先讨论GET方法,例如有下面一段:
那么在浏览器上会出现一个文本框和一个标为”OK”的按钮。按下这个按钮,表单就用GET方法向服务器提交文本框的数据。例如原始页面是在www.hotmail.com/when/birth.html看到的,然后你的文本框中输入1905,然后按”OK”按钮,那么浏览器的URL现在应该是:www.hotmail.com/when/junk.cgi?birthyear=1905&press=OK。 对于这种网页,curl可以直接处理,例如想要获取上面的网页,只要输入:
# curl www.hotmail.com/when/junk.cgi?birthyear=1905&press=OK
就可以了。
2) 表达用来提交信息的第二种方法叫做POST方法,POST方法和GET方法的区别在于GET方法使用的时候浏览器中会产生目标URL,而POST方法不会。类似GET,这里有一个网页:
浏览器上也会出现一个文本框和一个标为”OK”的按钮。按下这个按钮,表单用POST方法向服务器提交数据。这时的URL是看不到的,因此需要使用特殊的方法来抓取这个页面:
# curl -d "birthyear=1905&press=OK" www.hotmail.com/when/junk.cgi
3) 而在1995年末,RFC 1867定义了一种新的POST方法,用来上传文件。主要用于把本地文件上传到服务器。此时页面是这样写的:
对于这种页面,curl的用法不同:
# curl -F upload=@local_file_name -F press=OK [URL]
这个命令的实质是将本地文件用POST上传到服务器。
14. 示例
通过脚本,向curl传递复杂参数:
关于HTTP请求中经常会用到的Accept
与Content-Type
头,这里做一个说明:
Accept: 表示接口要返回给客户端的数据格式
Content-Type: 表示客户端发送给服务器端的数据格式
[参看]:
-
curl工具使用指南
-
curl 工具的使用
-
TCP报文格式详解
-
Ethernet IP TCP UDP 协议头部格式及大小
-
理解TCP序列号(Sequence Number)和确认号(Acknowledgment Number)
-
CURL命令详解及@&特殊字符处理