Python爬虫Requests库的使用详情

2025-01-31 18:35:53

一、Requests库的7个主要的方法

1.request（）	构造请求，支撑以下的基础方法
2.get（）	获取HTML页面的主要方法，对应于http的get
3.head（）	获取HTML页面的头部信息的主要方法，对应于http的head
	-`以很少的流量获取索要信息的概要内容`
4.post（）	向HTML提交post请求的方法，对应于http的post
	-`向URLpost一个字典将自动编码为form（表单）`
	-`向URLpost一个字符串自动编码为data`
5.put（）	向HTML提交put请求的方法，对应于http的put
6.patch（）	向HTML提交局部修改的请求，对应于http的patch
7.delete（）	向HTML提交删除请求，对应于http的delete

以下代码是描述的request方法中的13个控制访问参数：

import requests

# **kwargs:控制访问的参数，均为可选项，不仅仅是针对request，其他六中方法依旧适用

# params：字典或字节序列，作为参数增加到URL中，可以通过该参数筛选数据
kv = {"key1":"value1","key2":"value2"}
r = requests.request('GET','http://python123.io/ws',params=kv)
print(r.url)
# https://python123.io//ws?key1=value1&key2=value2

# data：字典、字节序列或文件对象，作为Request的内容;提交时，作为数据内容添加到当前的连接下
kv = {"key1":"value1","key2":"value2"}
r = requests.request('POST','http://python123.io/ws',params=kv)
body = '主体内容'
r = requests.request('POST','http://python123.io/ws',params=body)

# json：JSON格式的数据，作为Request的内容
kv = {"key1":"value1"}
r = requests.request('POST','http://python123.io/ws',json=kv)

# headers：字典，HTTP定制头,模拟需要的浏览器来进行访问
hd = {"user-agent":"Chrome/10"}
r = requests.request('POST','http://python123.io/ws',headers=hd)

# cookies：字典或CookieJar，Request中的cookie
# auth：元组，支持HTTP认证功能
# files：字典类型，传输文件;将某个文件提交到连接上
fs = {"file":open('data.xls','rb')}
r = requests.request('POST','http://python123.io/ws',file=fs)

# timeout：设定超时时间，秒为单位;在规定的时间内没有接收到响应将会显示timeout异常
r = requests.request('POST','http://www.baidu.com',timeout=10)

# proxies：字典类型，设定访问代理服务器，可以增加登录认证
pxs = {'http':'http://user:pass@10.10.10.1:1234', #当我们进入HTTP协议的网站时增加登录认证
'https':'https://10.10.10.1.4321' } #当我们进入HTTPS协议的网站时，直接使用代理服务器的IP地址；可以有效掩盖爬虫的原IP地址
r = requests.request('GET','http://python123.io/ws',proxies=pxs)

# allow_redirects：True/False，默认为True，重定向开关
# stream：True/False，默认为True，获取内容立刻下载的开关
# verify：True/False，默认为True，认证SSL证书开关
# cert：本地SSL证书路径

二、Response对象的属性

status_code	HTTP请求的返回状态码，200表示成功，400表示失败
text	HTTP响应内容的字符串形式，即URL对应的页面内容
encoding	从HTTPheader中猜测的响应内容编码方式
	-`如果header中不存在charset，则认为编码是ISO-8859-1`
apparent_encoding	从内容中分析出的响应内容编码方式（备选编码方式）
	-`从内容中分析出可能的编码形式`
content	HTTP响应内容的二进制形式

import requests

#构造一个向服务器请求资源的Response对象
r = requests.get(url="http://www.baidu.com")

print(r.status_code) #打印请求状态码
#200
print(type(r)) #打印请求对象类型
#<class 'requests.models.Response'>
print(r.headers) #打印请求对象的头部信息
#{'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no-transform', 'Connection': 'keep-alive', 'Content-Encoding': 'gzip', 'Content-Type': 'text/html', 'Date': 'Sat, 27 Jun 2020 09:03:41 GMT', 'Last-Modified': 'Mon, 23 Jan 2017 13:27:32 GMT', 'Pragma': 'no-cache', 'Server': 'bfe/1.0.8.18', 'Set-Cookie': 'BDORZ=27315; max-age=86400; domain=.baidu.com; path=/', 'Transfer-Encoding': 'chunked'}

print(r.text)
print(r.encoding) #ISO-8859-1
print(r.apparent_encoding) #备用编码utf-8
r.encoding = "utf-8"
print(r.text)

直接解析会出现乱码，将字符设为apparent_encoding时会结局问题。

三、爬取网页通用代码

try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "产生异常！"

作用：r.raise_for_status()函数判断当前请求返回状态码，当返回状态码不为200时，产生异常并能够被except捕获

import requests

# （定义方法）封装函数
def getHTMLText(url):
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "代码错误，产生异常！"

if __name__ =="__main__":
url = "http://www.baidu.com"
print(getHTMLText(url)) #正常显示爬取的页面信息

if __name__ =="__main__":
url = "www.baidu.com" #缺失了
print(getHTMLText(url)) #代码错误，产生异常！

四、Resquests库的常见异常

requests.ConnectionError	网络连接错误异常，如DNS查询失败、拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时异常

五、Robots协议展示

import requests
# （定义方法）封装函数
def getHTMLText(url):
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "代码错误，产生异常！"

if __name__ =="__main__":
url = "http://www.baidu.com/robots.txt"
print(getHTMLText(url)) #正常显示爬取的页面信息,显示出robots协议对于不同类型爬虫的限制

六、案例展示

1.爬取京东商品信息

在爬取后，我们发现在控制台中返回了带有login？的一个href，并没有具体的信息内容。但是在爬取主页时，可以直接获取主页具体信息。个人认为是由于无法识别是否已经登陆而导致的，后续学习中会跟进知识点及解决方法。（若有大佬会的，感谢评论！）

2.爬取网上图片并保存

import requests
import os

url = "http://image.ngchina.com.cn/2019/0523/20190523103156143.jpg"
root = "F:/图片/" #根目录
path = root + url.split('/')[-1] #以最后一个/后的文字命名
try:
if not os.path.exists(root): #如果不存在根目录文件，则创建根目录文件夹
os.mkdir(root) #该方法只能创建一级目录，如要创建多层，可以遍历循环创建
if not os.path.exists(path):
r = requests.get(url)
with open(path,'wb') as f:
f.write(r.content) #r.content返回的是2进制编码，将其写入
f.close()
print("文件已成功保存！")
else:
print("文件已存在~")
except:
print("爬取失败！！！")

到此这篇关于Python爬虫Requests库的使用详情的文章就介绍到这了,更多相关Python Requests库内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

Python爬虫之requests库基本介绍

目录一.说明二.基本用法: 总结一.说明 requests是一个很实用的Python HTTP客户端库,爬虫和测试服务器响应数据时经常会用到,requests是Python语言的第三方的库,专门用于发送HTTP请求,使用起来比urllib简洁很多. Requests 有这些功能: 1.Keep-Alive & 连接池2.国际化域名和 URL3.带持久 Cookie 的会话4.浏览器式的 SSL 认证5.自动内容解码6.基本/摘要式的身份认证7.优雅的 key/value Cookie8.自
Python爬取求职网requests库和BeautifulSoup库使用详解

目录一.requests库 1.requests简介 2.安装requests库 3.使用requests获取网页数据我们先导入模块 4.总结requests的一些方法二.BeautifulSoup库 1.BeautifulSoup简介 2.安装BeautifulSoup库 3.使用BeautifulSoup解析并提取获取的数据 4.BeautifulSoup提取数据的方法一.requests库 1.requests简介 requests库就是一个发起请求的第三方库,requests允许
python中requests库安装与使用详解

目录前言 1.Requests介绍 2.requests库的安装 3.requests库常用的方法 4.response对象的常用属性 5.使用requests发送get请求 5.1 不带参数的get请求 5.2 带参数的get请求 5.2.1 查询参数params 5.2.2 SSL证书认证参数 verify 5.2.3 设置超时时间 timeout 5.2.4 代理IP参数 proxies 5.3 获取JSON数据 5.4 获取二进制数据 6.使用requests发送post请求 7.使
python爬虫之requests库的使用详解

目录 python爬虫-requests库的用法基本的get请求带参数的GET请求: 解析json 使用代理获取cookie 会话维持证书验证设置超时异常捕获异常处理总结 python爬虫-requests库的用法 requests是python实现的简单易用的HTTP库,使用起来比urllib简洁很多,requests 允许你发送 HTTP/1.1 请求.指定 URL并添加查询url字符串即可开始爬取网页信息等操作因为是第三方库,所以使用前需要cmd安装 pip install
离线安装python的requests库方法

目录前言 1.下载安装包 1.1 检查requests模块所需依赖包 1.2 下载requests所需依赖包 1.3 下载requests包 2.安装 2.1 安装requests所需依赖包 2.2 安装requests 3.检查是否安装成功总结前言本文详细记录了在win7中离线安装python requests的过程,包括安装requests所需依赖包. 环境:win7.python3.8.9(win7中可安装的最新python版本).无法连接互联网 1.下载安装包 1.1 检查req
Python中requests库的用法详解

目录一.requests库安装请求响应二.发送get请求 1.一个带参数的get请求: 2.响应json 3.添加头信息headers 4.添加和获取cookie信息三.发送post请求 1.一个带参数的Post请求: 2.传递JSON数据 3.文件上传四.高级应用 1.session会话维持 2.身份验证 3.代理设置 4.证书验证 5.超时时间 6.重定向与请求历史 7.其他五.异常处理六.requests库和urllib包对比 1.使用urllib.request 2.使
关于python3安装pip及requests库的导入问题

最近在学习python的内容,在导入requsets库的时候遇到了问题. import requests 查了一下资料是requests库需要安装后才能使用.需要在cmd命令行执行 pip install requests 命令. 但是执行的时候没啥反应,requests包还是没导入,遂又去百度.. 原来是我的python包没有pip这个工具.还需要先安装pip.下面就来给大家趟一遍浑水,下次就不会犯类似的错误了. 1.安装pip 下载地址:https://pypi.org/project/pi
Python中requests库的学习方法详解

目录前言一 URL,URI和URN 1. URL,URI和URN 2. URL的组成二请求组成 1. 请求方法 2. 请求网址 3. 请求头 4. 请求体三请求 1. get请求 2. get带请求头headers参数 3. post请求四响应 1. 响应状态码 2. 响应头 3. 响应体总结前言好记性不如烂笔头!最近在接口测试,以及爬虫相关,需要用到Python中的requests库,之前用过,但是好久没有用又忘了,这次就把这块的简单整理下(个人笔记使用) 一 URL,U
Python爬虫Requests库的使用详情

目录一.Requests库的7个主要的方法二.Response对象的属性三.爬取网页通用代码四.Resquests库的常见异常五.Robots协议展示六.案例展示一.Requests库的7个主要的方法 1.request() 构造请求,支撑以下的基础方法 2.get() 获取HTML页面的主要方法,对应于http的get 3.head() 获取HTML页面的头部信息的主要方法,对应于http的head -以很少的流量获取索要信息的概要内容 4.post() 向HTML提
python爬虫---requests库的用法详解

requests是python实现的简单易用的HTTP库,使用起来比urllib简洁很多因为是第三方库,所以使用前需要cmd安装 pip install requests 安装完成后import一下,正常则说明可以开始使用了. 基本用法: requests.get()用于请求目标网站,类型是一个HTTPresponse类型 import requests response = requests.get('http://www.baidu.com')print(response.status_c
Python爬虫requests库多种用法实例

requests安装和使用下载安装:pip install requests #requests模块 import requests #发送请求 content:以二进制的形式获取网页的内容 response=requests.get("http://www.baidu.com").content.decode() #response=requests.request("get","http://www.baidu.com").content.
关于Python网络爬虫requests库的介绍

1. 什么是网络爬虫简单来说,就是构建一个程序,以自动化的方式从网络上下载.解析和组织数据. 就像我们浏览网页的时候,对于我们感兴趣的内容我们会复制粘贴到自己的笔记本中,方便下次阅读浏览——网络爬虫帮我们自动完成这些内容当然如果遇到一些无法复制粘贴的网站——网络爬虫就更能显示它的力量了为什么需要网络爬虫当我们需要做一些数据分析的时候——而很多时候这些数据存储在网页中,手动下载需要花费的时间太长,这时候我们就需要网络爬虫帮助我们自动爬取这些数据来(当然我们会过滤掉网页上那些没用的东西) 网
python利用requests库模拟post请求时json的使用教程

我们都见识过requests库在静态网页的爬取上展现的威力,我们日常见得最多的为get和post请求,他们最大的区别在于安全性上: 1.GET是通过URL方式请求,可以直接看到,明文传输. 2.POST是通过请求header请求,可以开发者工具或者抓包可以看到,同样也是明文的. 3.GET请求会保存在浏览器历史纪录中,还可能会保存在Web的日志中. 两者用法上也有显著差异(援引自知乎): 1.GET用于从服务器端获取数据,包括静态资源(HTML|JS|CSS|Image等等).动态数据展示(列表
python使用requests库爬取拉勾网招聘信息的实现

按F12打开开发者工具抓包,可以定位到招聘信息的接口在请求中可以获取到接口的url和formdata,表单中pn为请求的页数,kd为关请求职位的关键字使用python构建post请求 data = { 'first': 'true', 'pn': '1', 'kd': 'python' } headers = { 'referer': 'https://www.lagou.com/jobs/list_python/p-city_0?&cl=false&fromSearch=true&a
python爬虫beautifulsoup库使用操作教程全解(python爬虫基础入门)

[python爬虫基础入门]系列是对python爬虫的一个入门练习实践,旨在用最浅显易懂的语言,总结最明了,最适合自己的方法,本人一直坚信,总结才会使人提高 1. BeautifulSoup库简介 BeautifulSoup库在python中被美其名为"靓汤",它和和 lxml 一样也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据.BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,若在没用安装此库的情况下
python中requests库+xpath+lxml简单使用

python的requests 它是python的一个第三方库,处理URL比urllib这个库要方便的多,并且功能也很丰富. [可以先看4,5表格形式的说明,再看前面的] 安装直接用pip安装,anconda是自带这个库的. pip install requests 简单使用 requests的文档 1.简单访问一个url: import requests url='http://www.baidu.com' res = requests.get(url) res.text res.statu
python爬虫请求库httpx和parsel解析库的使用测评

Python网络爬虫领域两个最新的比较火的工具莫过于httpx和parsel了.httpx号称下一代的新一代的网络请求库,不仅支持requests库的所有操作,还能发送异步请求,为编写异步爬虫提供了便利.parsel最初集成在著名Python爬虫框架Scrapy中,后独立出来成立一个单独的模块,支持XPath选择器, CSS选择器和正则表达式等多种解析提取方式, 据说相比于BeautifulSoup,parsel的解析效率更高. 今天我们就以爬取链家网上的二手房在售房产信息为例,来测评下http