python 如何用urllib与服务端交互(发送和接收数据)

urllib是Python3中内置的HTTP请求库,不需要单独安装,官方文档链接如下:https://docs.python.org/3/library/urllib.html从官方文档可以看出,urllib包含4个模块,如图所示。

这4个模块的功能描述如下:

  • request:最基本的HTTP请求模块,可以用来发送HTTP请求,并接收服务端的响应数据。这个过程就像在浏览器地址栏输入URL,然后按Enter键一样。
  • error:异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后根据实际情况,或者进行重试,或者直接忽略,或进行其他操作。
  • parse:工具模块,提供了很多处理URL的API,如拆分、解析、合并等。
  • robotparser:主要用来识别网站的robots.txt文件,然后判断哪些网站可以抓取,哪些网站不可以抓取。

本文主要介绍如何通过urllib发送HTTP GET请求和HTTP POST请求,并获取相应数据。

1. 用urlopen函数发送HTTP GET请求

urllib最基本的一个功能就是向服务端发送HTTP请求,然后接收服务端返回的响应数据。这个功能只需要通过urlopen函数就可以搞定。例如,下面的代码向百度发送HTTP GET请求,然后输出服务端的响应结果。

import urllib.request 
response=urllib.request.urlopen('https://baidu.com') 
# 将服务端的响应数据用utf-8解码 
print(response.read().decode('utf-8')) 

运行结果如图 所示。

我们可以看到,使用urllib与服务端交互是非常容易的,除了import语句外,真正与业务有关的代码只有2行,就完成了整个与服务端交互的过程。其实这个过程已经完成了爬虫的第一步,就是从服务端获取HTML代码,然后就可以利用各种分析库对HTML代码进行解析,提取出我们感兴趣的URL、文本、图像等。其实urlopen函数返回的是一个对象,而read是这个对象的一个方法,可以利用type方法输出这个对象的类型,当我们知道了对象类型后,就可以很容易知道这个对象中有哪些API,然后调用它们。

import urllib.request 
response=urllib.request.urlopen('https://baidu.com') 
print(type(response)) 

这段代码会输出如下的结果:

<class 'http.client.HTTPResponse'> 

现在我们了解到,urlopen函数返回的是HTTPResponse类型的对象,主要包含read、getheader、getheaders等方法,以及msg、version、status、debuglevel、closed等属性。下面是一个实际的案例,用来演示了HTTPResponse对象中主要的方法和属性的用法。

import urllib.request 
# 向京东商城发送HTTP GET请求,urlopen函数即可以使用http,也可以使用https 
response=urllib.request.urlopen('https://www.jd.com') 
# 输出urlopen函数返回值的数据类型 
print('response的类型:',type(response)) 
# 输出响应状态码、响应消息和HTTP版本 
print('status:',response.status,' msg:',response.msg,' version:', response.version) 
# 输出所有的响应头信息 
print('headers:',response.getheaders()) 
# 输出名为Content-Type的响应头信息 
print('headers.Content-Type',response.getheader('Content-Type')) 
# 输出京东商城首页所有的HTML代码(经过utf-8解码) 
print(response.read().decode('utf-8')) 

运行结果如图所示。

2. 用urlopen函数发送HTTP POST请求

urlopen函数默认情况下发送的是HTTP GET请求,如果要发送HTTP POST请求,需要使用data命名参数,该参数是bytes类型,需要用bytes类将字符串形式的数据转换为bytes类型。下面的例子

下面的例子向http://httpbin.org/post发送HTTP POST请求,并输出返回结果。

import urllib.request 
# 将表单数据转换为bytes类型,用utf-8编码 
data=bytes(urllib.parse.urlencode({'name':'Bill','age':30}),encoding='utf-8') 
# 提交HTTP POST请求 
response=urllib.request.urlopen('http://httpbin.org/post',data=data) 
# 输出响应数据 
print(response.read().decode('utf-8')) 

这段代码中一开始提供了一个字典形式的表单数据,然后使用urlencode方法将字典类型的表单转换为字符串形式的表单,接下来将字符串形式的表单按utf-8编码转换为bytes类型,这就是要传给urlopen函数的data命名参数的值,要注意,一旦指定了data命名参数,urlopen函数就会向服务端提交HTTP POST请求,这里并不需要显式指定要提交的是POST请求。

本例将HTTP POST请求提交给了http://httpbin.org/post,这是一个用于测试HTTP POST请求的网址,如果请求成功,服务端会将HTTP POST请求信息原封不动地返回给客户端。运行结果如图所示。

以上就是python 如何用urllib与服务端交互(发送和接收数据)的详细内容,更多关于python 用urllib与服务端交互的资料请关注我们其它相关文章!

(0)

相关推荐

  • python3 中使用urllib问题以及urllib详解

    今天遇到一个蛮奇怪的问题:当我在控制台中使用 urllib 没问题,但是当我在 vscode 中 .py 文件中导入 urllib 使用时会报错: AttributeError: module 'urllib' has no attribute 'request' 查了一下资料是 python3 的 urllib 不会自动导入其under层的包,需要手动导入. import urllib import urllib.parse import urllib.request 再次使用即可成功. ur

  • python中urllib.request和requests的使用及区别详解

    urllib.request 我们都知道,urlopen()方法能发起最基本对的请求发起,但仅仅这些在我们的实际应用中一般都是不够的,可能我们需要加入headers之类的参数,那需要用功能更为强大的Request类来构建了 在不需要任何其他参数配置的时候,可直接通过urlopen()方法来发起一个简单的web请求 发起一个简单的请求 import urllib.request url='https://www.douban.com' webPage=urllib.request.urlopen(

  • Python urllib3软件包的使用说明

    urllib3是一款Python 3的HTTP客户端. Python标准库提供了urllib.在Python 2中,另外提供了urllib2:而在Python 3中,重构了urllib和urllib2到标准库urllib,并另外提供了urllib3. 1. urllib3的特性 线程安全 连接缓冲池 客户端SSL/TLS验证 文件上传 请求重试 HTTP重定向 支持gzip和deflate encoding 支持HTTP和SOCKS的代理 2. 安装 urllib3不是Python 3的标准库,

  • Python urllib.request对象案例解析

    刚刚接触爬虫,基础的东西得时时回顾才行,这么全面的帖子无论如何也得厚着脸皮转过来啊! 什么是 Urllib 库? urllib 库 是 Python 内置的 HTTP 请求库.urllib 模块提供的上层接口,使访问 www 和 ftp 上的数据就像访问本地文件一样. 有以下几种模块: 1.urllib.request 请求模块 2. urllib.error 异常处理模块 3. urllib.parse url 解析模块 4. urllib.robotparser robots.txt 解析模

  • 详解python内置模块urllib

    urllib 是 python 的内置模块, 主要用于处理url相关的一些操作,例如访问url.解析url等操作. urllib 包下面的 request 模块主要用于访问url,但是用得太多,因为它的光芒全都被 requests 这个第三方库覆盖了,最常用的还是 parse 模块. 写爬虫过程中,经常要对url进行参数的拼接.编码.解码,域名.资源路径提取等操作,这时 parse 模块就可以排上用场. 一.urlparse urlparse 方法是把一个完整的URL拆分成不同的组成部分,你可以

  • python urllib和urllib3知识点总结

    在python数据请求中,我们有一个标准库专门处理这方面的问题,那就是urllib库.在不同的python版本中,urllib也有着版本上的变化.本篇就urllib和urllib3这两种库为大家带来介绍,分析其基本的用法.不同点.使用注意和实例,希望能对大家在数据请求的学习有所帮助. 1.说明 在可供使用的网络库中,urllib和urllib3可能是投入产出比最高的两个.它们能让你通过网络访问文件,就像这些文件位于你的计算机中一样.只需一个简单的函数调用,就几乎可将统一资源定位符(URL)可指向

  • python爬虫基础之urllib的使用

    一.urllib 和 urllib2的关系 在python2中,主要使用urllib和urllib2,而python3对urllib和urllib2进行了重构,拆分成了urllib.request, urllib.parse, urllib.error,urllib.robotparser等几个子模块,这样的架构从逻辑和结构上说更加合理.urllib库无需安装,python3自带.python 3.x中将urllib库和urilib2库合并成了urllib库. urllib2.urlopen()

  • Python urllib库如何添加headers过程解析

    对于请求一些网站,我们需要加上请求头才可以完成网页的抓取,不然会得到一些错误,无法返回抓取的网页.下面,介绍两种添加请求头的方法. 方法一:借助build_opener和addheaders完成 import urllib.request url="http://www.meizitu.com" #注意:在urllib 中headers是元组 headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64

  • python 如何用urllib与服务端交互(发送和接收数据)

    urllib是Python3中内置的HTTP请求库,不需要单独安装,官方文档链接如下:https://docs.python.org/3/library/urllib.html从官方文档可以看出,urllib包含4个模块,如图所示. 这4个模块的功能描述如下: request:最基本的HTTP请求模块,可以用来发送HTTP请求,并接收服务端的响应数据.这个过程就像在浏览器地址栏输入URL,然后按Enter键一样. error:异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后根据实际情况

  • AngularJS使用$http配置对象方式与服务端交互方法

    如下所示: //$http函数的形参就是一个配置对象 $http({ //method属性表示HTTP请求时的方式,它是一个字符串,值是POST.GET.JSONP.DELETE.PUT和HEAD其中之一 method: //url表示向服务器请求的地址,是一个相对或者绝对的字符串形式 url: //data属性是一个对象,该对象将作为消息体的一部分发送给服务端,常用于POST或PUT数据时使用: data: //params属性是一个字符串对象,当发送HTTP请求时,如果是对象,将自动按jso

  • python网络编程socket实现服务端、客户端操作详解

    本文实例讲述了python网络编程socket实现服务端.客户端操作.分享给大家供大家参考,具体如下: 本文内容: socket介绍 TCP: 服务端 客户端 UDP: 服务端 客户端 首发时间:2018-02-08 01:14 修改: 2018-03-20 :重置了布局,增加了UDP 什么是socket: socket又称"套接字",应用程序通常通过"套接字"向网络发出请求或者应答网络请求. 网络上的两个程序通过一个双向的通信连接实现数据的交换,这个连接的一端称为

  • java Nio使用NioSocket客户端与服务端交互实现方式

    NioSocket 客户端与服务端交互实现 java Nio是jdk1.4新增的io方式-–nio(new IO),这种方式在目前来说算不算new,更合适的解释应该是non-block IO. non-block是相对于传统的io方式来讲的.传统的Io方式是阻塞的,我们拿网络io来举例,传统的io模型如下: 服务端主线程负责不断地server.accept(),如果没有客户端请求主线程就会阻塞,当客户端请求时,主线程会通过线程池创建一个新的线程执行. 简单解释就是一个线程负责一个客户端的sock

  • Ubuntu Server Rsync服务端与Windows cwRsync客户端数据同步配置方法

    说明: 1.Rsync服务端 系统:Ubuntu Server 11.10 IP地址:192.168.21.168 数据存放目录:/home/mysql_data 2.cwRsync客户端 系统:Windows Server 2003 IP地址:192.168.21.130 同步的目录:D:\mysql_data 实现目的: cwRsync客户端每天凌晨3:00钟自动同步Rsync服务端/home/mysql_data目录中的数据到D:\mysql_data目录 一.Rsync服务端配置 1.开

  • Java 客户端向服务端上传mp3文件数据的实例代码

    客户端: package cn.itcast.uploadpicture.demo; import java.io.BufferedInputStream; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStream; import java.io.PrintStream; import java.net.Socket; import java.net.UnknownHostExce

  • Python udp网络程序实现发送、接收数据功能示例

    本文实例讲述了Python udp网络程序实现发送.接收数据功能.分享给大家供大家参考,具体如下: 1. udp网络程序-发送数据 创建一个基于udp的网络程序流程很简单,具体步骤如下: 创建客户端套接字 发送/接收数据 关闭套接字 代码如下: #coding=utf-8 from socket import * # 1. 创建udp套接字 udp_socket = socket(AF_INET, SOCK_DGRAM) # 2. 准备接收方的地址 # '192.168.1.103'表示目的ip

  • 详解android与服务端交互的两种方式

    做Android开发的程序员必须知道android客户端应该如何与服务端进行交互,这里主要介绍的是使用json数据进行交互.服务端从数据库查出数据并以json字符串的格式或者map集合的格式返回到客户端,客户端进行解析并输出到手机屏幕上. 此处介绍两种方式:使用Google原生的Gson解析json数据,使用JSONObject解析json数据 一.使用Google原生的Gson解析json数据: 记得在客户端添加gson.jar. 核心代码: 服务端: package com.mfc.ctrl

  • Android客户端与服务端交互

    本文和大家一起了解了一下android客户端与服务端是怎样交互的,具体内容如下 1.后台使用简单的servlet,支持GET或POST.这个servlet最终返回给前台一个字符串flag,值是true或false,表示登录是否成功. servlet使用之前需要配置,主义servlet的servlet-name要和servlet-mapping的servlet-name一致,否则找不到路径 我是在myEclipse上创建的一个web service 项目,然后部署到tomcat服务器上以便andr

  • python Socket之客户端和服务端握手详解

    简单的学习下利用socket来建立客户端和服务端之间的连接并且发送数据 1. 客户端socketClient.py代码 import socket s = socket.socket(socket.AF_INET, socket.SOCK_STREAM) # 建立连接: s.connect(('127.0.0.1', 9999)) # 接收欢迎消息: print(s.recv(1024).decode('utf-8')) for data in [b'Michael', b'Tracy', b'

随机推荐