python爬虫之request模块深入讲解

目录
  • 一、概述
  • 二、安装和基本步骤使用
  • 三、http知识复习
  • 四、request请求模块的方法使用
  • 五,params和payload参数使用说明
  • 总结

一、概述

在后期渗透测试中,经常会遇到需要向第三方发送http请求的场景,python中的requests库可以很好的满足这一要求,Requests模块是一个用于网络请求的模块,主要用来模拟浏览器发请求。其实类似的模块有很多,比如urllib,urllib2,httplib,httplib2,他们基本都提供相似的功能。但是这些模块都复杂而且差不多过时了,requests模块简单强大高效,使得其在众多网络请求模块中脱引而出。

二、安装和基本步骤使用

环境安装:pip install requests

基本步骤:.

1.导入模块:import requests
2.指定url:url = "........"
3.基于requests模块发送请求:res = requests.get(url)
4.获取响应对象中的数据值:print(res.'...')
5.持久化存储(不是必须的)

三、http知识复习

(一)八种请求方式:GET、 POST、 HEAD、OPTIONS、 PUT、 DELETE、 TRACE、 CONNECT。

这里我只详细介绍getpost

1.GET

用于获取资源,当采用 GET 方式请求指定资源时, 被访问的资源经服务器解析后立即返回响应内容。通常以 GET 方式请求特定资源时, 请求中不应该包含请求体,所有需要向被请求资源传递的数据都应该通过 URL 向服务器传递。

2. POST

POST 动作:用于提交数据, 当采用 POST 方式向指定位置提交数据时,数据被包含在请求体中,服务器接收到这些数据后可能会建立新的资源、也可能会更新已有的资源。同时 POST 方式的请求体可以包含非常多的数据,而且格式不限。因此 POST 方式用途较为广泛,几乎所有的提交操作都可以使用 POST 方式来完成。

注:虽然用 GET 方式也可以提交数据,但一般不用 GET 方式而是用 POST 方式。在 HTTP协议中,建议 GET 方式只用来获取数据,而 POST 方式则用来提交数据(而不是获取数据)。

get方式和post方式区别:

简单来说,本质上区别:
    - GET产生 一个 TCP数据包
    - POST产生 两个 TCP数据包

    对于GET方式的请求,浏览器会把http header和data一并发送出去,服务器响应200(返回数据);
    而对于POST,浏览器先发送header,服务器响应100 continue,浏览器再发送data,服务器响应200 ok(返回数据)。

(二)http常见请求参数

url:请求url地址
    headers:请求头
    data:发送编码为表单形式的数据
    params:查询字符串

    host:请求web服务器的域名地址
    User-Agent:HTTP客户端运行的浏览器类型的详细信息。通过该头部信息,web服务器可以判断到当前HTTP请求的客户端浏览器类别。
    Accept:指定客户端能够接收的内容类型,内容类型中的先后次序表示客户端接收的先后次序。
    Accept-Encoding:指定客户端浏览器可以支持的web服务器返回内容压缩编码类型。
    Accept-Language:指定HTTP客户端浏览器用来展示返回信息所优先选择的语言
    Connection:表示是否需要持久连接。如果web服务器端看到这里的值为“Keep-Alive”,或者看到请求使用的是HTTP 1.1(HTTP 1.1默认进行持久连接),表示连接持久有效,是不会断开的
    cookie:HTTP请求发送时,会把保存在该请求域名下的所有cookie值一起发送给web服务器。
    Refer:包含一个URL,用户从该URL代表的页面出发访问当前请求的页面

四、request请求模块的方法使用

举例说明:爬取我个人网站的数据

import requests  #导入request模块
    url = "http://42.192.212.170/"  #指定url为我个人的网站
    r = requests.get(url)  #基于request模块给我个人url网站发送请求
    print (r.url)      #获取响应包地址
    print (r.status_code) #获取响应包的状态码
    print (r.headers)  #获取响应包的头部信息
    print (len(r.text))  #获取以文本形式下响应包的长度
    print (r.encoding) #获取网页编码方式
    print (r.cookies)  #获取响应包的cookie值
    print (r.content)  #以字节形式返回响应体,会自动解码成gzip和deflate压缩

输出结果:

当然也可以用下面几种请求方法:

1.requests.post(“http://httpbin.org/post”)                                        # POST请求
    2.requests.put(“http://httpbin.org/put”)                                          # PUT请求
    3.requests.delete(“http://httpbin.org/delete”)                                    # DELETE请求
    4.requests.head(“http://httpbin.org/get”)                                         # HEAD请求
    5.requests.options(“http://httpbin.org/get” )                                     # OPTIONS请求

requests响应参数说明:

    r.encoding                       #获取当前的编码
    r.encoding = 'utf-8'             #设置编码
    r.text                           #以encoding解析返回内容。字符串方式的响应体,会自动根据响应头部的字符编码进行解码。
    r.content                        #以字节形式(二进制)返回。字节方式的响应体,会自动为你解码 gzip 和 deflate 压缩。
    r.headers                        #以字典对象存储服务器响应头,但是这个字典比较特殊,字典键不区分大小写,若键不存在则返回
    r.status_code                     #响应状态码

五,params和payload参数使用说明

举例说明:

    import requests  #导入request模块
    r1 = requests.get("http://42.192.212.170/",params={'s':'1'} )   #params字符串传参变量s为1
    print (r1.url)
    payload1 = {'s':'1'} #设置payload参变量s为1
    r2 = requests.get("http://42.192.212.170/",params=payload1) #将params设为payload1
    print (r2.url)
    payload2 = {'key1':"value1",'key2':'value2'} #设置payload参变量key1为value1并且变量key2为value2
    r3 = requests.get("http://42.192.212.170/",params=payload2) #params设为payload2
    print (r3.url)

输出结果:

总结

到此这篇关于python爬虫之request模块的文章就介绍到这了,更多相关python爬虫之request模块内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • Python爬虫库requests获取响应内容、响应状态码、响应头

    首先在程序中引入Requests模块 import requests 一.获取不同类型的响应内容 在发送请求后,服务器会返回一个响应内容,而且requests通常会自动解码响应内容 1.文本响应内容 获取文本类型的响应内容 r = requests.get('https://www.baidu.com') r.text # 通过文本的形式获取响应内容 '<!DOCTYPE html>\r\n<!--STATUS OK--><html> <head><m

  • python爬虫 基于requests模块的get请求实现详解

    需求:爬取搜狗首页的页面数据 import requests # 1.指定url url = 'https://www.sogou.com/' # 2.发起get请求:get方法会返回请求成功的响应对象 response = requests.get(url=url) # 3.获取响应中的数据:text属性作用是可以获取响应对象中字符串形式的页面数据 page_data = response.text # 4.持久化数据 with open("sougou.html","w&

  • Python3网络爬虫中的requests高级用法详解

    本节我们再来了解下 Requests 的一些高级用法,如文件上传,代理设置,Cookies 设置等等. 1. 文件上传 我们知道 Reqeuests 可以模拟提交一些数据,假如有的网站需要我们上传文件,我们同样可以利用它来上传,实现非常简单,实例如下: import requests files = {'file': open('favicon.ico', 'rb')} r = requests.post('http://httpbin.org/post', files=files) print

  • python中数据爬虫requests库使用方法详解

    一.什么是Requests Requests 是Python语编写,基于urllib,采Apache2 Licensed开源协议的 HTTP 库.它urllib 更加方便,可以节约我们大量的工作,完全满足HTTP测试需求. 一句话--requests是python实现的简单易用的HTTP库 二.安装Requests库 进入命令行win+R执行 命令:pip install requests 项目导入:import requests 三.各种请求方式 直接上代码,不明白可以查看我的urllib的基

  • python爬虫之request模块深入讲解

    目录 一.概述 二.安装和基本步骤使用 三.http知识复习 四.request请求模块的方法使用 五,params和payload参数使用说明 总结 一.概述 在后期渗透测试中,经常会遇到需要向第三方发送http请求的场景,python中的requests库可以很好的满足这一要求,Requests模块是一个用于网络请求的模块,主要用来模拟浏览器发请求.其实类似的模块有很多,比如urllib,urllib2,httplib,httplib2,他们基本都提供相似的功能.但是这些模块都复杂而且差不多

  • python爬虫用request库处理cookie的实例讲解

    python爬虫中使用urli库可以使用opener"发送多个请求,这些请求是能共享处理cookie的,小编之前也提过python爬虫中使用request库会比urllib库更加⽅便,使用使用requests也能达到共享cookie的目的,即使用request库get方法和使用requests库提供的session对象都可以处理. 方法一:使用request库get方法 resp = requests.get('http://www.baidu.com/') print(resp.cookies

  • python爬虫scrapy图书分类实例讲解

    我们去图书馆的时候,会直接去自己喜欢的分类栏目找寻书籍.如果其中的分类不是很细致的话,想找某一本书还是有一些困难的.同样的如果我们获取了一些图书的数据,原始的文件里各种数据混杂在一起,非常不利于我们的查找和使用.所以今天小编教大家如何用python爬虫中scrapy给图书分类,大家一起学习下: spider抓取程序: 在贴上代码之前,先对抓取的页面和链接做一个分析: 网址:http://category.dangdang.com/pg4-cp01.25.17.00.00.00.html 这个是当

  • celery在python爬虫中定时操作实例讲解

    使用定时功能对于我们想要快速获取某个数据来说,是一个非常好的方法.这样我们就不用苦苦守在电脑屏幕前,只为蹲到某个想要的东西.在之前我们已经讲过time函数进行定时操作,这算是time函数的比较基础的一个用法了.其实定时功能同样可以用celery实现,具体的方法我们往下看: 爬虫由于其特殊性,可能需要定时做增量抓取,也可能需要定时做模拟登陆,以防止cookie过期,而celery恰恰就实现了定时任务的功能.在上述基础上,我们将`tasks.py`文件改成如下内容 from celery impor

  • python爬虫之请求模块urllib的基本使用

    目录 前言 urllib的子模块 HttpResponse常用方法与属性获取信息 urlli.parse的使用(一般用于处理带中文的url) 爬取baidu官网HTML源代码 添加请求头信息(重构user_agent) 扩展知识 with open和open两者的区别 总结 前言 在实现网络爬虫的爬取工作时,就必须使用网络请求,只有进行了网络请求才可以对响应结果中的数据进行提取,urllib模块是python自带的网络请求模块,无需安装,导入即可使用.下面将介绍如果使用python中的urlli

  • python爬虫常用的模块分析

    本文对Python爬虫常用的模块做了较为深入的分析,并以实例加以深入说明.分享给大家供大家参考之用.具体分析如下: creepy模块 某台湾大神开发的,功能简单,能够自动抓取某个网站的所有内容,当然你也可以设定哪些url需要抓. 地址:https://pypi.python.org/pypi/creepy 功能接口: set_content_type_filter: 设定抓取的content-type(header中的contenttype).包括text/html add_url_filter

  • Python实现使用request模块下载图片demo示例

    本文实例讲述了Python实现使用request模块下载图片.分享给大家供大家参考,具体如下: 利用流传输下载图片 # -*- coding: utf-8 -*- import requests def download_image(): """ demo:下载图片 :return: """ headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) Ap

  • 对python中的logger模块全面讲解

    logging模块介绍 Python的logging模块提供了通用的日志系统,熟练使用logging模块可以方便开发者开发第三方模块或者是自己的Python应用.同样这个模块提供不同的日志级别,并可以采用不同的方式记录日志,比如文件,HTTP.GET/POST,SMTP,Socket等,甚至可以自己实现具体的日志记录方式.下文我将主要介绍如何使用文件方式记录log. logging模块包括logger,handler,filter,formatter这四个基本概念. logging模块与log4

  • python爬虫之selenium模块

    目录 一.什么是Selenium 二.selenium安装 1.PhantomJS: 无可视化界面的浏览器(无头浏览器) 2.下载浏览器驱动 三.selenium基本使用 1.声明浏览器对象 Headless方式启动 2.访问页面 3.查找元素 1.单个元素查找 2.多个元素查找 4.元素交互操作 1.键盘事件 2.鼠标事件 5.执行JavaScript 6.获取DOM 1.获取元素属性:get_attribute('class') 2.获取文本值:text 3.获取ID,位置,标签名 7.Fr

随机推荐