python中的decode()与encode()深入理解

目录
  • 1.decode()
  • 2.encode()
  • 3.转码

unicode编码方案:
unicode只规定了每个字符所对应的码值(码点),即编码,但并没有规定如何在计算机中实现。同一个字符,可通过utf-8、utf-16、utf-32、gb2312(对中文)等多种方式各自实现。encode()方法就是将unicode编码方式转化为对应的实现方式,而decode()相反,将实现方式转化为编码。

1.decode()

bytes.decode(encoding=“utf-8”, errors=“strict”)
1.这个函数是bytes类型数据调用的,字符串str类型是不能够调用的。(好多文章说字符串也可以调用该函数,我是真搞不懂。)
2.该函数返回字符串。换句话说是bytes类型转化成str类型的函数。
3.encoding规定解码方式。bytes数据是由什么编码方式编码的,该函数encoding参数就必须用相应解码方式,这样才能返回正确字符串。解码后的字符串自动转为unicode编码方式。
4.errors参数默认为strict,即解码错误后引起异常发生。其他参数值为ignore,replace等。

2.encode()

str.encode(encoding=“utf-8”, errors=“strict”)
参数含义同上。这个函数将字符串转化成相应编码方式的字节形式。对于ASCII字符(数字,英文,部分标点符号)而言,不同编码方式编码后的字节是一样的。但是对于中文来说,编码后的字节不一样。

3.转码

例如,我有一个中文网站,网站编码方式为gb2312,我通过requests请求后要将网页打印出来。但是python内部是unicode编码的,直接response.text肯定会返回乱码。

import requests
url_all="https://www.kanunu8.com/"
header_all={
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
    'upgrade-insecure-request': '1',
}
def get_classification_urls(url,headers):
    try:
        response=requests.get(url,headers=headers,timeout=10)
        if response.status_code==200:
            print(response.text))
    except Exception as e:
        print(e)

如下图,果然乱码

这时就需要正确解码,即将gb2312解码为unicode.我们可以这样:
1.先获取编码的二进制格式,该格式为gb2312编码的二进制:

bytes=response.content

2.将二进制格式通过decode()函数解码为unicode格式:

bytes.decode(encoding="gb2312")

decode()函数是bytes类型转str类型,这样就能够返回正确的字符串了。

当然,这个例子即使通过gb2312解码,仍然是乱码。原因可能是原网页含有gb2312不能识别的字符(虽然gb2312是为中国文字服务的,但是有些少数名族的字符也属于中国文字,但是并没有包含在gb2312内)。后来为了扩充编码,由在gb2312基础上增加了gbk和gb18030编码,二者范围更广。事例用gb18030即可正确解码。

到此这篇关于python中的decode()与encode()详解的文章就介绍到这了,更多相关python decode()与encode()函数内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • Python3字符串encode与decode的讲解

    大家好,很久没更新了,也是年底了最近比较忙,同时也在研究python的其他内容,毕竟是python小白,自学道路艰难. 好了今天和大家一起探讨下python3编码过程中对的一些转码事宜. python3中对文本和二进制做了比较清晰的区分.python3默认编码为unicode,由str类型进行表示.二进制数据使用byte类型表示,所以不会将str和byte混在一起.在实际应用中我们经常需要将两者进行互转 有几点需要注意: 1:字符串通过编码转换为字节码,字节码通过解码转换为字符串 str--->

  • 详解Python解决抓取内容乱码问题(decode和encode解码)

    一.乱码问题描述 经常在爬虫或者一些操作的时候,经常会出现中文乱码等问题,如下 原因是源网页编码和爬取下来后的编码格式不一致  二.利用encode与decode解决乱码问题 字符串在Python内部的表示是unicode编码,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码. decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode('gb2312

  • python encode和decode的妙用

    >>> "hello".encode("hex") '68656c6c6f' 相应的还可以 >>> '68656c6c6f'.decode("hex") 'hello' 查了一下手册,还有这些codec可用 Codec Aliases Operand type Purpose base64_codec base64, base-64 byte string Convert operand to MIME bas

  • Python字符串编码转换 encode()和decode()方法详细说明

    目录 1.Python encode()方法 2.Python decode()方法 前言: 我们知道,最早的字符串编码是 ASCII 编码,它仅仅对 10 个数字.26 个大小写英文字母以及一些特殊字符进行了编码.ASCII 码做多只能表示 256 个符号,每个字符只需要占用 1 个字节. 随着信息技术的发展,各国的文字都需要进行编码,于是相继出现了 GBK.GB2312.UTF-8 编码等,其中 GBK 和 GB2312 是我国制定的中文编码标准,规定英文字符母占用 1 个字节,中文字符占用

  • Python3中urlencode和urldecode的用法详解

    在Python3中,将中文进行urlencode编码使用函数 urllib.parse.quote(string, safe='/', encoding=None, errors=None) 而将编码后的字符串转为中文,则使用 urllib.parse.unquote(string, encoding='utf-8', errors='replace') 示例代码如下: test = "微信公众账号比特量化" print(test) new = urllib.parse.quote(t

  • Python字符串的encode与decode研究心得乱码问题解决方法

    为什么会报错"UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)"?本文就来研究一下这个问题. 字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码. decode的作用

  • python中的decode()与encode()深入理解

    目录 1.decode() 2.encode() 3.转码 unicode编码方案:unicode只规定了每个字符所对应的码值(码点),即编码,但并没有规定如何在计算机中实现.同一个字符,可通过utf-8.utf-16.utf-32.gb2312(对中文)等多种方式各自实现.encode()方法就是将unicode编码方式转化为对应的实现方式,而decode()相反,将实现方式转化为编码. 1.decode() bytes.decode(encoding=“utf-8”, errors=“str

  • 关于对python中进程的几个概念理解

    目录 进程 僵尸进程 孤儿进程 守护进程 互斥锁 总结 进程 第一,进程是一个容器.每一个进程都有它自己的地址空间,一般情况下,包括文本区域( text region).数据区域(data region)和堆栈(stack region). 文本区域存储处理器执行的代码;数据区城存储变量和进程执行期间使用的动态分配的内存;堆栈区域存储看活动过程调用的指令和本地变量. 第二,进程是一个"执行中的程序".程序是一个没有生命的实体,只有处理器赋予程序生命时(操作系统执行之),它才 能成为一个

  • 对python中return和print的一些理解

    前言 最近刚开始学习python,之前只有一些c的基础,也忘得差不多了,现在想边学习边总结和分享收获~看书时看了return的用法,可是后来和print混了,老是感觉可以将函数return值直接显示,但不是这样的.下面就来和大家分析下对python中return和print的理解,话不多说了,来一起看看详细的介绍吧. 看到知道上的一个例子: 代码 (1) x = 1 y = 2 def add (x, y): z = x + y return z print (add(x,y)) 代码 (2)

  • 关于Python中*args和**kwargs的深入理解

    目录 1. 理解  *  和  ** 2.Python函数的参数 3. 支持任意参数的函数 *args, **kwargs 4. 固定位置参数和关键字参数  /   * 5. **的另一个用法, 字典合并 总结: 1. 理解  *  和  ** Python的赋值语句可以解包将可迭代元素剥离出来 In [6]: a, b, c = [1, 2, 3] In [7]: a Out[7]: 1 In [8]: b Out[8]: 2 In [9]: c Out[9]: 3 赋值语句可以理解为 a,

  • Python中装饰器的基本功能理解

    目录 前言 什么是装饰器 Python 函数的基本特性 函数名的本质: 将函数作为变量使用: 进一步实现装饰器 使用Python装饰器语句: 总结 前言 在 python 中,装饰器由于是 python 语言自带的一个功能,因此,对于其实现以及其用法就会感到比较奇怪,这里我记录一下对它的理解,加深自己的印象. 什么是装饰器 对于什么是装饰器,我们其实应该知道为什么会存在装饰器. ​ 装饰器是 python 引入的一个非常有意思的功能,它主要用于解决想要在原有函数或类的基础上进行功能扩展,但又不会

  • 简单介绍Python中的decode()方法的使用

    decode()方法使用注册编码的编解码器的字符串进行解码.它默认为默认的字符串编码. 语法 以下是decode()方法的语法: str.decode(encoding='UTF-8',errors='strict') 参数 encoding -- 这是所使用的编码.对于所有的编码方案的列表,请访问:标准编码库 errors -- 这可能是给定一个不同的错误处理机制.默认的错误是"严格",即编码错误提出UnicodeError.其他可能的值是ignore', 'replace', 'x

  • python中对开区间和闭区间的理解

    目录 对开区间和闭区间的理解 举例 开闭区间易混点 1.range和random模块区别 2.第二点 对开区间和闭区间的理解 对于开区间,本身已经不包含两端点值,所以根本满足不了连续的第一个要求,所以要说某一开区间连续,我们说是函数在这一开区间内连续,区间内当然不包括端点,只要证明得了函数在开区间内每一处都连续,那么就可以得证该函数在该开区间内连续: 而证明函数在一闭区间内连续,显然除了两端点之间连续要证明,两端点处也要证明. 也就是说闭区间连续的证明比开区间多了一步——两端点的连续证明. 在已

  • python中WSGI是什么,Python应用WSGI详解

    为了让大家更好的对python中WSGI有更好的理解,我们先从最简单的认识WSGI着手,然后介绍一下WSGI几个经常使用到的接口,了解基本的用法和功能,最后,我们通过实例了解一下WSGI在实际项目中如何使用. WSGI是什么? wsgi是一个web组件的接口防范,wsgi将web组件分为三类:web服务器,web中间件,web应用程序 wsgi基本处理模式为:wsgi Server -> wsgi middleware -> wsgi application WSGI,全称 Web Serve

  • Python中的axis参数的具体使用

    目录 一.axis简介 二.不一样的axis 对于axis=0 三.总结 补充:python中某些函数axis参数的理解 在我们使用Python中的Numpy和Pandas进行数据分析的时候,经常会遇到一个让人感到头痛的参数--axis,本文让我们换一个角度来重新认识一下axis. 一.axis简介 通常情况下我们都会赋予axis参数"轴"的概念,对于常见的二维数据来说,我们有如下的表示形式: 对于这种常见的结构来说,看上去很清晰,但是涉及到实际操作的时候就会变的难以理解,下面让我们用

  • 彻彻底底地理解Python中的编码问题

    Python处理文本的功能非常强大,但是如果是初学者,没有搞清楚python中的编码机制,也经常会遇到乱码或者decode error.本文的目的是简明扼要地说明python的编码机制,并给出一些建议. 问题1:问题在哪里? 问题是我们的靶子,心中没有问题去学习就会抓不住重点. 本文使用的编程环境是centos6.7,python2.7.我们在shell中键入python以打开python命令行,并键入如下两句话: s = "中国zg" e = s.encode("utf-8

随机推荐