Python 字符串处理特殊空格\xc2\xa0\t\n Non-breaking space

今天遇到一个问题,使用python的find函数寻找字符串中的第一个空格时没有找到正确的位置,例如:

http://zc.whmc.edu.cn ==> 无法访问的网站或无效的招标网站

使用find(" ")函数寻找时找到的第一个空格对应在==>后面的那个位置。一开始觉得是编码问题,但是文件是用UTF-8编码的,按理说不应该产生编码问题,就用Sublime打开一看是这样的:

可以看到,我的Sublime设置了显示空白,所以第二个红线上方有一个白点,而第一个红线上方却没有,这说明第一个红线上方那个字符确实不是一个空格,也就是说函数的运行没有问题。但那个空格倒底是个什么东西呢?在Sublime中File-->Reopen with Encoding-->Hexadecimal打开文件可以看到是这样的:

在网上可以查到,==>对应的UTF-8编码是\x3d\x3d\x3e,所以前面的那个神秘字符的编码就是\xc2\xa0,上网查到这是一个叫做Non-breaking space的东西,用于阻止在此处自动换行和阻止多个空格被压缩成一个。至于解决方法,先用subplace("\xc2\xa0", " ")把这个特殊的空格替换一下就行了。

去除特殊空格:\xc2\xa0

在去除空格的时候遇到一种情况:

a = '2 '
b = '3'
print a.split(),b

输出结果:

['2\xc2\xa0'] 3

在网上可以查到,==>对应的UTF-8编码是\x3d\x3d\x3e,所以前面的那个神秘字符的编码就是\xc2\xa0,上网查到这是一个叫做Non-breaking space的东西,用于阻止在此处自动换行和阻止多个空格被压缩成一个。至于解决方法,先用subplace("\xc2\xa0", " ")

a = '2 '
b = '3'

print a.replace("\xc2\xa0", ""),b

输出结果:

python 爬虫爬取内容时, \xa0 、 \u3000 的含义与处理方法

处理方法

str.replace(u'\xa0', u' ')

最近用 scrapy 爬某网站,发现拿到的内容里面含有 \xa0 、 \u3000 这样的字符,起初还以为是编码不对,搜了一下才知道是见识太少 233 。

\xa0 是不间断空白符  

我们通常所用的空格是 \x20 ,是在标准ASCII可见字符 0x20~0x7e 范围内。
而 \xa0 属于 latin1 (ISO/IEC_8859-1)中的扩展字符集字符,代表空白符nbsp(non-breaking space)
latin1 字符集向下兼容 ASCII ( 0x20~0x7e )。通常我们见到的字符多数是 latin1 的,比如在 MySQL 数据库中。

这里也有一张简陋的Latin1字符集对照表

\u3000 是全角的空白符

根据Unicode编码标准及其基本多语言面的定义, \u3000 属于CJK字符CJK标点符号区块内,是空白字符之一。它的名字是 Ideographic Space ,有人译作表意字空格、象形字空格等。顾名思义,就是全角的 CJK 空格。它跟 nbsp 不一样,是可以被换行间断的。常用于制造缩进, wiki 还说用于抬头,但没见过。

这里还有一个 Unicode.org 上关于 CJK 标点符号块的字符代码表

python中去掉字符串中的\xa0、\t、\n

今天帮女朋友从网络上收集一些信息,但是发现提取出的信息中有“\xa0”,并且无法去掉,查阅了相关资料,后发现该字符表示空格。

\xa0 是不间断空白符  
我们通常所用的空格是 \x20 ,是在标准ASCII可见字符 0x20~0x7e 范围内。
而 \xa0 属于 latin1 (ISO/IEC_8859-1)中的扩展字符集字符,代表空白符nbsp(non-breaking space)。
latin1 字符集向下兼容 ASCII ( 0x20~0x7e )。通常我们见到的字符多数是 latin1 的,比如在 MySQL 数据库中。
有如下信息:

'T-shirt\xa0\xa0短袖圆领衫,体恤衫\xa0,', 'V-neck\xa0\xa0V型领\xa0sleeve\xa0\xa0袖子\xa0,',

我们如何将其中的\xz0去掉呢,试了re模块的sub方法,发现没有作用,于是又开始查阅相关资料,终于解决了该问题。方法如下:

>>> inputstring = u'\n           Door:\xa0Novum     \t   '
>>> move = dict.fromkeys((ord(c) for c in u"\xa0\n\t"))
>>> output = inputstring.translate(move)
>>> output
'           Door:Novum 

另外还有一种更简单的方法,利用split方法:

>>> s
'T-shirt\xa0\xa0短袖圆领衫,体恤衫\xa0'
>>> out = "".join(s.split())
>>> out
'T-shirt短袖圆领衫,体恤衫'

可以发现利用translate方法、split()可以完美解决,并且还可以替换\t \n字符,由此又学到了新知识!

关于ord函数:
ord()函数是chr()函数(对于8位的ASCII字符串)或unichr()函数(对于Unicode对象)的配对函数,它以一个字符(长度为1的字符串)作为参数,返回对应的ASCII数值,或者Unicode数值,如果所给的Unicode字符超出了你的Python定义范围,则会引发一个TypeError的异常。

关于fromkeys方法:
dict中的fromkeys方法目的是创建一个只有key的字典,内部利用for循环,使三个字符的asii码值成为可迭代对象(本来的整数是不可迭代的),分别对其迭代,存入字典。

关于translate方法:
Python translate() 方法根据参数table给出的表(包含 256 个字符)转换字符串的字符, 要过滤掉的字符放到 del 参数中。接收到move返回的表(字典),之后对字符串进行替换。

join()方法:
join(): 连接字符串数组。将字符串、元组、列表中的元素以指定的字符(分隔符)连接生成一个新的字符串。可见该处用join方法真的是神来之笔,可谓绝妙!

值得注意的是,split方法中不带参数时,表示分割所有换行符、制表符、空格。

python2 可以这样

s=s.replace(unichr(0xa0),'')

到此这篇关于Python 字符串处理特殊空格\xc2\xa0 Non-breaking space的文章就介绍到这了,更多相关Python 特殊空格内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • HTML转义字符&npsp;表示non-breaking space \xa0

    1.参考 Beautiful Soup and Unicode Problems 详细解释 unicodedata.normalize('NFKD',string) 实际作用??? Scrapy : Select tag with non-breaking space with xpath >>> selector.xpath(u''' ... //p[normalize-space()] ... [not(contains(normalize-space(), "\u00a0

  • Python 字符串处理特殊空格\xc2\xa0\t\n Non-breaking space

    今天遇到一个问题,使用python的find函数寻找字符串中的第一个空格时没有找到正确的位置,例如: http://zc.whmc.edu.cn ==> 无法访问的网站或无效的招标网站 使用find(" ")函数寻找时找到的第一个空格对应在==>后面的那个位置.一开始觉得是编码问题,但是文件是用UTF-8编码的,按理说不应该产生编码问题,就用Sublime打开一看是这样的: 可以看到,我的Sublime设置了显示空白,所以第二个红线上方有一个白点,而第一个红线上方却没有,这

  • python实现指定字符串补全空格的方法

    本文实例讲述了python实现指定字符串补全空格的方法.分享给大家供大家参考.具体分析如下: 如果希望字符串的长度固定,给定的字符串又不够长度,我们可以通过rjust,ljust和center三个方法来给字符串补全空格 rjust,向右对其,在左边补空格 s = "123".rjust(5) assert s == " 123" ljust,向左对其,在右边补空格 s = "123".ljust(5) assert s == "123

  • Python切片操作去除字符串首尾的空格

    下面通过实例代码给大家分享Python切片操作去除字符串首尾的空格的方法,具体内容如下所示: #利用切片操作,实现一个trim()函数,去除字符串首尾的空格,注意不要调用str的strip()方法 def trim(s): while s[0:1]==' ': s=s[1:] while s[(len(s)-1):len(s)]==' ': s=s[:-1] return s s=input('请输入一个字符串:') print('去除首尾空格后',trim(s)) 知识点: •取一个list或

  • python实现指定字符串补全空格、前面填充0的方法

    Python zfill()方法返回指定长度的字符串,原字符串右对齐,前面填充0. zfill()方法语法:str.zfill(width) 参数width -- 指定字符串的长度.原字符串右对齐,前面填充0. 返回指定长度的字符串. 以下实例展示了 zfill()函数的使用方法: #!/usr/bin/python str = "this is string example....wow!!!"; print str.zfill(40); print str.zfill(50); 以

  • python 实现将list转成字符串,中间用空格隔开

    今天想输出一个list,中间用空格隔开.当然用循环可以搞定,但是这个也太不象python的风格了. 找了半天,网上都说使用" ".join(a)的办法,但是python3不支持,在stackoverflow里面找了半天才得到一个结果 a = [1,2,3,4] print(" ".join(str(i) for i in a)) 可是join里面是什么鬼???再找找,发现是 generator expression,又去看了看. 学到些新的姿势. 以上这篇pytho

  • Python 字符串去除空格的五种方法

    在处理Python代码字符串的时候,我们常会遇到要去除空格的情况,所以就总结了多种方法供大家参考. 1.strip()方法 去除字符串开头或者结尾的空格 str = " Hello world " str.strip() 输出: "Hello world" 2.lstrip()方法 去除字符串开头的空格 str = " Hello world " str.lstrip() 输出: 'Hello world ' 3.rstrip()方法 去除字符串

  • python字符串常见使用操作方法介绍

    目录 1.字符串的驻留机制 2.什么叫字符串的驻留机制 3.字符串驻留机制的优缺点 4.字符串的查询操作的方法 4.1字符串的大小写转换操作的方法 4.2字符串内容对其操作和方法 4.3判断字符串的方法 4.4字符串的比较操作 5.格式化字符串 6.字符串的编码转换 1.字符串的驻留机制 字符串: 在Python中字符串是基本的数据类型,是一个不可变的字符序列 2.什么叫字符串的驻留机制 仅保存一份相同且不可变字符串的方法,不同的值被存放在字符串的驻留池中,python的驻留机制对相同的字符串只

  • 教大家玩转Python字符串处理的七种技巧

    前言 日常使用python经常要对文本进行处理,无论是爬虫的数据解析,还是大数据的文本清洗,还是普通文件的处理,都是要用到字符串. Python对字符串的处理内置了很多高效的函数,非常方便功能很强大.下面是我总结的常用的7招,有了这几招就能轻松应对字符串处理. 一.字符串的连接和合并 连接和合并 相加 //两个字符串可以很方便的通过'+'连接起来 合并//用join方法 二.字符串的切片和相乘 相乘//比如写代码的时候要分隔符,用python很容易实现 line='*'*30 print(lin

  • 浅谈python字符串方法的简单使用

    学习python字符串方法的使用,对书中列举的每种方法都做一个试用,将结果记录,方便以后查询. (1) s.capitalize() ;功能:返回字符串的的副本,并将首字母大写.使用如下: >>> s = 'wwwwww' >>> scap = s.capitalize() >>> scap 'Wwwwww' (2)s.center(width,char); 功能:返回将s字符串放在中间的一个长度为width的字符串,默认其他部分用空格填充,否则使用c

  • Python字符串拼接的几种方法整理

    Python字符串拼接的几种方法整理 第一种 通过加号(+)的形式 print('第一种方式通过加号形式连接 :' + 'love'+'Python' + '\n') 第二种 通过逗号(,)的形式 print('第二种方式通过逗号形式连接 :' + 'love', 'Python' + '\n') 第三种 直接连接 中间有无空格均可 print('第三种方式通过直接连接形式连接 (一) :' + 'love''Python' + '\n') print('第三种方式通过直接连接形式连接 (二)

随机推荐