python2和python3在处理字符串上的区别详解
python2和python3对于字符串的处理有很大的区别
熟悉了python2的写法用python3时真的会遇到很多问题啊……
区别
python2中有一种类型叫做unicode型,例
type(u"a") => str型 type("a".decode('utf8')) => unicode型
两者返回的类型都是unicode型
而在python3中,所有的字符串都是unicode,所以就不存在单独的unicode型,全部都是字符串型
type(u"a") => str型 type("a".decode('utf8')) => 报错,python3不能这样写
但是python3中多处一种字符串
type(b'132') => byte型
而在python2中这样写就会报错
所以显而易见,decode和encode的使用也会有很大的区别
python2中的decode是将str型转换为unicode型
python3中的decode是将byte型转换为str型
使用
在使用python3写爬虫时,有时候会遇到这样的错误
'gbk' codec can't encode character '\u30fb' in position 0: illegal multibyte sequence
遇到这样的错误就和上面的编码问题连系起来了
你会发现,明明自己设置的编码是utf8,怎么会报一个gbk的错误??
这个问题可能会在两个地方出现(输出时,写入文件时),其实这里设置的编码并没有问题,问题出在python3的字符串中,像上面说的,python3默认所有字符串都是unicode型,在面对字符串时,会首先按照unicode解析,自然会报错
那么,我们来转换一下编码(假设a是一个gbk编码的数据流)
"a".decode('gbk')
将字符串按照gbk规则解码
会发现依旧报错,明明已经改为gbk了啊……不着急,再进行一次
"a".decode('gbk').encode('utf8').decode('utf8')
为什么写的这么长……就像上面说的,decode是将byte型转为str型,而encode是将str型转换为byte型,所以再进行一次encode,decode就能够使得字符串转换编码格式
但是当你输出时,你会发现还是有问题
解决
我们回到开始
不输出我们想要的字符串,发现没有问题……问题出在哪?
没错,是print(),print在输出时会默认其中的字符时unicode编码的字符串,而我们输入了一个gbk编码的字符串,所以就会出错,所以,解决方法就是,不使用print……
但是print的使用有时候是不可避免的,所以在decode时加上一个ignore
"a".decode('gbk',errors='ignore')
此外,在打开或写入文件时遇到的话,就需要加上encoding参数
with open("1.txt",'r',encoding='utf8') as a:
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。
相关推荐
-
python分割和拼接字符串
关于string的split 和 join 方法对导入os模块进行os.path.splie()/os.path.join() 貌似是处理机制不一样,但是功能上一样. 1.string.split(str=' ',num=string.count(str)): 以str为分隔,符切片string,如果num有指定值,则仅分隔num个子字符串.S.split([sep [,maxsplit]]) -> 由字符串分割成的列表 返回一组使用分隔符(sep)分割字符串形成的列表.如果指定最大分割数,则在
-
Python字符串拼接、截取及替换方法总结分析
本文实例讲述了Python字符串拼接.截取及替换方法.分享给大家供大家参考,具体如下: python字符串连接 python字符串连接有几种方法,我开始用的第一个方法效率是最低的,后来看了书以后就用了后面的2种效率高的方法,跟大家分享一下. 先介绍下效率比较低的方法: a = ['a','b','c','d'] content = '' for i in a: content = content + i print content content的结果是:'abcd' 后来我看了书以后,发现书上
-
python字符串替换的2种方法
python 字符串替换 是python 操作字符串的时候经常会碰到的问题,这里简单介绍下字符串替换方法. python 字符串替换可以用2种方法实现: 1是用字符串本身的方法. 2用正则来替换字符串 下面用个例子来实验下: a = 'hello word' 把a字符串里的word替换为python 1.用字符串本身的replace方法 复制代码 代码如下: a.replace('word','python') 输出的结果是hello python 2.用正则表达式来完成替换: 复制代码 代码如
-
Python 字符串操作方法大全
1.去空格及特殊符号 复制代码 代码如下: s.strip().lstrip().rstrip(',') 2.复制字符串 复制代码 代码如下: #strcpy(sStr1,sStr2)sStr1 = 'strcpy'sStr2 = sStr1sStr1 = 'strcpy2'print sStr2 3.连接字符串 复制代码 代码如下: #strcat(sStr1,sStr2)sStr1 = 'strcat'sStr2 = 'append'sStr1 += sStr2print sStr1 4.查
-
python实现字符串和日期相互转换的方法
本文实例讲述了python实现字符串和日期相互转换的方法.分享给大家供大家参考.具体分析如下: 这里用的分别是time和datetime函数 ''' @author: jiangqh ''' import time,datetime # date to str print time.strftime("%Y-%m-%d %X", time.localtime()) #str to date t = time.strptime("2009 - 08 - 08", &q
-
python2与python3的print及字符串格式化小结
最近一直在用python写程序,对于python的print一直很恼火,老是不按照预期输出.在python2中print是一种输出语句,和if语句,while语句一样的东西,在python3中为了填补python2的各种坑,将print变为函数,因此导致python3中print的一些使用和python2很不一样.同时,python3大改python2中的字符串格式化,主推format()函数格式,用法很是灵活,让老用户一时摸不着头脑.今天特来总结一样print和format,也希望能帮助大家彻
-
Python实现字符串与数组相互转换功能示例
本文实例讲述了Python实现字符串与数组相互转换功能.分享给大家供大家参考,具体如下: 字符串转数组 str = '1,2,3' arr = str.split(',') print a 运行结果: 数组转字符串 #方法1 arr = ['a','b'] str1 = ','.join(arr) print str1 #方法2 arr = [1,2,3] #str = ','.join(str(i) for i in arr)#此处str命名与str函数冲突! str2 = ','.join(
-
Python去掉字符串中空格的方法
我们经常在处理字符串时遇到有很多空格的问题,一个一个的去手动删除不是我们程序员应该做的事情,今天这篇技巧的文章我们就来给大家讲一下,如何用Python去除字符串中的空格.我们先创建一个左右都有N个空格的字符串变量s,看代码: 复制代码 代码如下: >>> s = " 我们 ">>> 去除字符串空格,在Python里面有它的内置方法,不需要我们自己去造轮子了.lstrip:删除左边的空格这个字符串方法,会删除字符串s开始位置前的空格. 复制代
-
python2和python3在处理字符串上的区别详解
python2和python3对于字符串的处理有很大的区别 熟悉了python2的写法用python3时真的会遇到很多问题啊-- 区别 python2中有一种类型叫做unicode型,例 type(u"a") => str型 type("a".decode('utf8')) => unicode型 两者返回的类型都是unicode型 而在python3中,所有的字符串都是unicode,所以就不存在单独的unicode型,全部都是字符串型 type(u&
-
Windows下Python2与Python3两个版本共存的方法详解
前言 一向用Python 3,最近研究微信公众号开发,各云平台只支持Python 2.7,想用其他版本需要自己搭建环境.而网上又搜不到Python 3开发微信公众号的资料.暂打算先使用Python 2.7,有空学习Docker后再迁移到Python 3. 安装Python 2.7后,本来在3.4下能正常使用的脚本无法运行.网上有的方法是把两个版本的主程序分别改名为python2和python3,人眼判断脚本,手输命令行执行脚本.像我这样喜欢双击.拖拽的懒人当然不会满足,找到了更智能的解决方案.
-
c字符串,string对象,字符串字面值的区别详解
一.字符串字面值字符串字面值是一串常量字符,字符串字面值常量用双引号括起来的零个或多个字符表示,为兼容C语言,C++中所有的字符串字面值都由编译器自动在末尾添加一个空字符.字符串没有变量名字,自身表示自身 复制代码 代码如下: "Hello World!" //simple string literal"" //empty string literal"\nCC\toptions\tfile.[cC]\n" //string literal us
-
python2和python3实现在图片上加汉字的方法
python2和python3实现在图片上加汉字,最主要的区别还是内部编码方式不一样导致的,在代码上表现为些许的差别.理解了内部编码原理也就不会遇到这些问题了,以下代码是在WIN10系统上时测好用的. Python2 在图片上加汉字代码实现 # -*- coding: cp936 -*- import cv2 import numpy as np from PIL import Image, ImageDraw, ImageFont def ID_2_Word(txt): tmp_ID = tx
-
Python3中的bytes和str类型详解
Python 3最重要的新特性之一是对字符串和二进制数据流做了明确的区分.文本总是Unicode,由str类型表示,二进制数据则由bytes类型表示.Python 3不会以任意隐式的方式混用str和bytes,你不能拼接字符串和字节流,也无法在字节流里搜索字符串(反之亦然),也不能将字符串传入参数为字节流的函数(反之亦然). 下面让我们深入分析一下二者的区别和联系. 编码发展的历史 在谈bytes和str之前,需要先说说关于编码是如何发展的.. 在计算机历史的早期,美国为代表的英语系国家主导了整
-
对Python3.x版本print函数左右对齐详解
数字的情况: a = 5 , b = 5.2,c = "123456789" 最普通的右对齐:print("%3d"%a) 输出 5(详情:5前面两个空格) print("%10.3f"%b) 输出 5.200(详情:10代表整个输出占10个空间,小数点空间也算,3代表小数点后有三位,若不够则补上0) print("%.3f"%b) 输出5.200(详情:代表小数点后面占三位,不够则用0补齐) 字符串的情况: 与数字一样,只不
-
Python3爬虫中关于中文分词的详解
原理 中文分词,即 Chinese Word Segmentation,即将一个汉字序列进行切分,得到一个个单独的词.表面上看,分词其实就是那么回事,但分词效果好不好对信息检索.实验结果还是有很大影响的,同时分词的背后其实是涉及各种各样的算法的. 中文分词与英文分词有很大的不同,对英文而言,一个单词就是一个词,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,需要人为切分.根据其特点,可以把分词算法分为四大类: ·基于规则的分词方法 ·基于统计的分词方法 ·基于语义的分词方法 ·基于理解
-
Python3爬虫关于代理池的维护详解
我们在上一节了解了代理的设置方法,利用代理我们可以解决目标网站封 IP 的问题,而在网上又有大量公开的免费代理,其中有一部分可以拿来使用,或者我们也可以购买付费的代理 IP,价格也不贵.但是不论是免费的还是付费的,都不能保证它们每一个都是可用的,毕竟可能其他人也可能在用此 IP 爬取同样的目标站点而被封禁,或者代理服务器突然出故障或网络繁忙.一旦我们选用了一个不可用的代理,势必会影响我们爬虫的工作效率. 所以说,在用代理时,我们需要提前做一下筛选,将不可用的代理剔除掉,保留下可用代理,接下来在获
-
python3 中使用urllib问题以及urllib详解
今天遇到一个蛮奇怪的问题:当我在控制台中使用 urllib 没问题,但是当我在 vscode 中 .py 文件中导入 urllib 使用时会报错: AttributeError: module 'urllib' has no attribute 'request' 查了一下资料是 python3 的 urllib 不会自动导入其under层的包,需要手动导入. import urllib import urllib.parse import urllib.request 再次使用即可成功. ur
-
PyCharm2020.1.1与Python3.7.7的安装教程图文详解
今天和大家分享2020PyCharm和pythton3.7的安装,我直接将pycharm和python环境放在百度网盘了,大家直接下载即可. 下载安装包 PyCharm2020.1.1与Python3.7.7的安装 链接: https://pan.baidu.com/s/1QcUYjIEl9mA2-n3bk1P0Tw 提取码: vg5k 一.Python环境的安装 第一步:打开下载好的安装包,点击python3.7安装环境 第二步:注意:一定要勾选上add Python 3.7 to PATH,
随机推荐
- php正则删除img标签的方法示例 原创
- 关于图片按比例自适应缩放的js代码
- ExtJS 2.0实用简明教程 之Border区域布局
- ASP.NET MVC中的AJAX应用
- Mysql误操作后利用binlog2sql快速回滚的方法详解
- python中getaddrinfo()基本用法实例分析
- php警告Creating default object from empty value 问题的解决方法
- 在Python中关于中文编码问题的处理建议
- jQuery中需要注意的细节问题小结
- jsp实现防盗链的方法
- 重写、隐藏基类(new, override)的方法
- javascript中几个容易混淆的概念总结
- php chr() ord()中文截取乱码问题解决方法
- Bootstrap面板学习使用
- SqlServer强制断开数据库已有连接的方法
- 超漂亮的jQuery图片轮播特效
- 微信小程序实现图片轮播及文件上传
- Java使用RandomAccessFile类对文件进行读写
- 解析argc argv在php中的应用
- C++之类和对象课后习题简单实例