Python urlopen()和urlretrieve()用法解析
这篇文章主要介绍了Python urlopen()和urlretrieve()用法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
1.urlopen()方法
urllib.urlopen(url[, data[, proxies]]) :创建一个表示远程url的类文件对象,然后像本地文件一样操作这个类文件对象来获取远程数据。
参数url表示远程数据的路径,一般是网址;
参数data表示以post方式提交到url的数据(玩过web的人应该知道提交数据的两种方式:post与get。如果你不清楚,也不必太在意,一般情况下很少用到这个参数);
参数proxies用于设置代理。
- urlopen返回 一个类文件对象,它提供了如下方法:
- read() , readline() , readlines() , fileno() , close() :这些方法的使用方式与文件对象完全一样;
- info():返回一个httplib.HTTPMessage 对象,表示远程服务器返回的头信息
- getcode():返回Http状态码。如果是http请求,200表示请求成功完成;404表示网址未找到;
- geturl():返回请求的url;
代码示例:
import urllib url = "http://www.baidu.com/" #urlopen() sock = urllib.urlopen(url) htmlCode = sock.read() sock.close fp = open("e:/1.html","wb") fp.write(htmlCode) fp.close #urlretrieve() urllib.urlretrieve(url, 'e:/2.html')
2.urlretrieve方法
直接将远程数据下载到本地。
urllib.urlretrieve(url[, filename[, reporthook[, data]]]) 参数说明: url:外部或者本地url filename:指定了保存到本地的路径(如果未指定该参数,urllib会生成一个临时文件来保存数据); reporthook:是一个回调函数,当连接上服务器、以及相应的数据块传输完毕的时候会触发该回调。我们可以利用这个回调函数来显示当前的下载进度。 data:指post到服务器的数据。该方法返回一个包含两个元素的元组(filename, headers),filename表示保存到本地的路径,header表示服务器的响应头。
下面通过例子来演示一下这个方法的使用,这个例子将新浪首页的html抓取到本地,保存在D:/sina.html文件中,同时显示下载的进度。
import urllib def callbackfunc(blocknum, blocksize, totalsize): '''回调函数 @blocknum: 已经下载的数据块 @blocksize: 数据块的大小 @totalsize: 远程文件的大小 ''' percent = 100.0 * blocknum * blocksize / totalsize if percent > 100: percent = 100 print "%.2f%%"% percent url = 'http://www.sina.com.cn' local = 'd:\\sina.html' urllib.urlretrieve(url, local, callbackfunc)
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。
相关推荐
-
Python使用urllib模块的urlopen超时问题解决方法
在新的公司开始上班,今天工作的主题内容是市场部门需要抓取一些论坛用户的邮箱,以便发送营销邮件. 于是用了一个python脚本来执行,前面抓了几个都没有什么问题,后来碰到一个论坛,在执行urlopen的地方总是提示超时,百度了一下,因为我使用的是urllib不是urllib2,所以无法直接在urlopen里面加timeout参数,只能是设置全局脚本的超时时间 首先: 复制代码 代码如下: import socket 然后: 复制代码 代码如下: socket.setdefaulttimeout(6
-
Python urllib模块urlopen()与urlretrieve()详解
1.urlopen()方法urllib.urlopen(url[, data[, proxies]]) :创建一个表示远程url的类文件对象,然后像本地文件一样操作这个类文件对象来获取远程数据.参数url表示远程数据的路径,一般是网址:参数data表示以post方式提交到url的数据(玩过web的人应该知道提交数据的两种方式:post与get.如果你不清楚,也不必太在意,一般情况下很少用到这个参数):参数proxies用于设置代理.urlopen返回 一个类文件对象,它提供了如下方法:read(
-
详解Python3网络爬虫(二):利用urllib.urlopen向有道翻译发送数据获得翻译结果
上一篇内容,已经学会了使用简单的语句对网页进行抓取.接下来,详细看下urlopen的两个重要参数url和data,学习如何发送数据data 一.urlopen的url参数 Agent url不仅可以是一个字符串,例如:http://www.baidu.com.url也可以是一个Request对象,这就需要我们先定义一个Request对象,然后将这个Request对象作为urlopen的参数使用,方法如下: # -*- coding: UTF-8 -*- from urllib import re
-
解决python3 urllib中urlopen报错的问题
前言 最近更新了Python版本,准备写个爬虫,意外的发现urllib库中属性不存在urlopen,于是各种google,然后总结一下给出解决方案 问题的出现 AttributeError: 'module' object has no attribute 'urlopen' 问题的解决途径 我们先来看下官方文档的解释: a new urllib package was created. It consists of code from urllib, urllib2, urlparse, an
-
python urllib urlopen()对象方法/代理的补充说明
python urllib urlopen()对象方法/代理的补充说明 urllib 是 python 自带的一个抓取网页信息一个接口,他最主要的方法是 urlopen(),是基于 python 的 open() 方法的.下面是主要说明: urllib.urlopen('网址') 这里传入urlopen()的参数有特别说要求,要遵循一些网络协议,比如http,ftp,也就是说,在网址的开头必须要有http://这样的说明,如:urllib.urlopen('http://www.baidu.co
-
Python urlopen 使用小示例
一.打开一个网页获取所有的内容 from urllib import urlopendoc = urlopen("http://www.baidu.com").read()print doc 二.获取Http头 from urllib import urlopendoc = urlopen("http://www.baidu.com")print doc.info()print doc.info().getheader('Content-Type') 三.使用代理
-
Python urlopen()函数 示例分享
好了,废话少说,我们先看看几个示例吧 一.打开一个网页获取所有的内容 复制代码 代码如下: from urllib import urlopendoc = urlopen("http://www.baidu.com").read()print doc 二.获取Http头 复制代码 代码如下: from urllib import urlopendoc = urlopen("http://www.baidu.com")print doc.info()print doc
-
Python urlopen()和urlretrieve()用法解析
这篇文章主要介绍了Python urlopen()和urlretrieve()用法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 1.urlopen()方法 urllib.urlopen(url[, data[, proxies]]) :创建一个表示远程url的类文件对象,然后像本地文件一样操作这个类文件对象来获取远程数据. 参数url表示远程数据的路径,一般是网址: 参数data表示以post方式提交到url的数据(玩过web的人应该知道
-
python命令 -u参数用法解析
这篇文章主要介绍了python命令 -u参数用法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 在shell脚本中运行python 命令时后面加了-u 参数(python -u xx.py),这个-u表示什么? import sys sys.stdout.write("stdout1") sys.stderr.write("stderr1") sys.stdout.write("stdout2&quo
-
Python内置加密模块用法解析
这篇文章主要介绍了Python内置加密模块用法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 数据加密: 对称加密:数据加密和解密使用相同的密钥,主要解决数据的机密性(DES,AES) 非对称加密(公匙加密):数据加密和解密使用的不同密钥,主要用于身份的验证(DSA,RSA) 单向加密:只能加密不能解密,主要用于解决数据的完整性(MD5,SHA系列算法) Python内置加密模块: hashlib 主要提供了一些常见的单向加密算法(如MD5
-
python global和nonlocal用法解析
这篇文章主要介绍了python global和nonlocal用法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 ◆global和nonlocal是Python的两个重要变量作用域关键字 1.global用在全局变量,应用场景: 变量定义在函数外部的时候,如果函数里面想改变这个全局变量的值,需要在当前的引用函数里面重新定义一个变量 并用关键字global修饰. 例如: a=1 def b(): a+=1 print(a) b() 用ide写
-
Python变量作用域LEGB用法解析
这篇文章主要介绍了Python变量作用域LEGB用法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 闭包就是, 函数内部嵌套函数. 而 装饰器只是闭包的特殊场景而已, 特殊在如果外函数的参数是指向一个, 用来被装饰的函数地址时(不一定是地址哈, 随意就好) , 就有了 "@xxx" 这样的写法, 还是蛮有意思的. 装饰器的作用是 在不改变原函数的代码前提下, 额外给原函数填写新功能. 写法上来看, 还是比较简洁优雅的. 装饰器的通
-
python基础 range的用法解析
range基本用法: range:顾头不顾尾 range(10)--返回0-9的数字 ey: for i in range(10): print(i) result:0,1,...,9 range(0,10)--等同于range(10),返回0-9的数字 ey: for i in range(0,10): print(i) result:0,1,...,9 range(0,10,2)--返回0-9的数字,步长为2 ey: for i in range(0,10,2): print(i) resu
-
Python urlopen()参数代码示例解析
1.data参数 data是可选的,需要使用bytes()方法将参数转化为字节编码格式的内容.如果传递了这个参数,请求方式就不是GET方式,而是POST方式. import urllib.parse import urllib.request data = bytes(urllib.parse.urlencode({'word':'hello'}),encoding='utf8')#使用bytes()方法将参数word(值是hello),转换为字节流(bytes),#该方法的第一个参数需要str
-
Python Django Cookie 简单用法解析
home.html: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>个人信息页面</title> </head> <body> <p>个人信息页面</p> </body> </html> 只有返回一串字符串 login.html:
-
Python random模块用法解析及简单示例
用法示例: import random # 1)随机小数 print(random.random()) # 获取大于0且小于1 之间的小数 random.random() print(random.uniform(1, 4)) # 获取大于1小于3的小数 # 2)随机整数 print(random.randint(1, 9)) # 获取大于等于1且小于等于9之间的整数 print(random.randrange(1, 9)) # 获取大于等于1且小于9之间的整数 print(random.ra
-
Python断言assert的用法代码解析
在开发一个程序时候,与其让它运行时崩溃,不如在它出现错误条件时就崩溃(返回错误).这时候断言assert 就显得非常有用. python assert断言是声明布尔值必须为真的判定,如果发生异常就说明表达式为假. 可以理解assert断言语句为raise-if-not,用来测试表示式,其返回值为假,就会触发异常. assert的语法格式: assert expression 它的等价语句为: if not expression: raise AssertionError 这段代码用来检测数据类型
随机推荐
- windows 10下解压版MySql安装配置方法教程
- Python实现脚本锁功能(同时只能执行一个脚本)
- Access 模糊参数 分页查询
- mysql 使用inet_aton和inet_ntoa处理ip地址数据的实例
- 基于Python 的进程管理工具supervisor使用指南
- javascript闭包传参和事件的循环绑定示例探讨
- C#泛型Dictionary的用法实例详解
- Python内置的字符串处理函数详细整理(覆盖日常所用)
- python实现的二叉树算法和kmp算法实例
- 举例讲解Python中的迭代器、生成器与列表解析用法
- asp错误的几种处理方式
- c文件汇编后函数参数传递的不同之处
- 简单介绍C++编程中派生类的析构函数
- 很全面的MySQL处理重复数据代码
- jQuery Ajax传值到Servlet出现乱码问题的解决方法
- 自制控制进程和控制开机启动项批处理(ntsd强制结束版)
- 关于shell的几个不为人知却十分有用的命令分享
- 浅谈C语言中的强符号、弱符号、强引用和弱引用
- Yii2汉字转拼音类的实例代码
- MySQL InnoDB存储引擎的深入探秘