HTML转义字符&npsp;表示non-breaking space \xa0

1.参考

Beautiful Soup and Unicode Problems

详细解释

unicodedata.normalize('NFKD',string) 实际作用???

Scrapy : Select tag with non-breaking space with xpath

>>> selector.xpath(u'''
... //p[normalize-space()]
... [not(contains(normalize-space(), "\u00a0"))]

normalize-space() 实际作用???

In [244]: sel.css('.content')
Out[244]: [<Selector xpath=u"descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' content ')]" data=u'<p class="content text-

BeautifulSoup下Unicode乱码解决

今天在用scrapy爬某个网站的数据,其中DOM解析我用的是BeautifulSoup,速度上没有XPath来得快,不过因为用了习惯了,所以一直用的bs,版本是bs4
不过在爬取过程中遇到了一些问题,其中一个是Unicode转码问题,这也算是python中一个著名问题了。
我遇到的算是BeautifulSoup中的一个奇葩bug吧,在网页中经常会有 &nbsp 这种标记,称为 non-breaking space character, 本来这个应该是忽略的,但在bs中会把这个符号
转义成为一个unicode编码 \xa0, 这就导致了后面如果要对内容处理的话会出现UnicodeError, 特别是如果使用的是Console或者scrapy中写文件、写数据库的pipeline操作时,
出现无法转义的错误。
那么该如何解决呢,其实不难

s = u'\xa0'
s.replace(u'\xa0', u'')

之后就可以对s进行encode,比如:

s = u'\xa0'
s.replace(u'\xa0', u'').encode('utf-8')

特别是在我的项目中,如果需要把数据写到MongoDB中,这个bug fix完后,写数据立刻搞定,爬取的内容全部写到MongoDB中。

s.replace(u'\xa0', u'').encode('utf-8')

2.问题定位

https://en.wikipedia.org/wiki/Comparison_of_text_editors

定位元素显示为 &npsp;

网页源代码表示为  

<tr>
<td style="background: #FFD; color: black; vertical-align: middle; text-align: center;" class="partial table-partial">memory</td>
<td>= Limited by available memory   </td>
<td style="background:#F99;vertical-align:middle;text-align:center;" class="table-no">No (64 KB)</td>
<td>= Some limit less than available memory (give max size if known)</td>
</tr>
</table>

实际传输Hex为:

不间断空格的unicode表示为 u\xa0',保存的时候编码 utf-8 则是 '\xc2\xa0'

In [211]: for tr in response.xpath('//table[8]/tr[2]'):
...: print [u''.join(i.xpath('.//text()').extract()) for i in tr.xpath('./*')]
...:

[u'memory', u'= Limited by available memory \xa0\xa0', u'No (64\xa0KB)', u'= Some limit less than available memory (give max size if known)']

In [212]: u'No (64\xa0KB)'.encode('utf-8')
Out[212]: 'No (64\xc2\xa0KB)'

In [213]: u'No (64\xa0KB)'.encode('utf-8').decode('utf-8')
Out[213]: u'No (64\xa0KB)'

保存 csv 直接使用 excel 打开会有乱码(默认ANSI gbk 打开???,u'\xa0' 超出 gbk 能够编码范围???),使用记事本或notepad++能够自动以 utf-8 正常打开。

使用记事本打开csv文件,另存为 ANSI 编码,之后 excel 正常打开。超出 gbk 编码范围的替换为'?'

3.如何处理

.extract_first().replace(u'\xa0', u' ').strip().encode('utf-8','replace')

以上就是HTML转义字符&npsp;表示non-breaking space \xa0的详细内容,更多关于HTML转义字符\xa0的资料请关注我们其它相关文章!

(0)

相关推荐

  • Python 字符串处理特殊空格\xc2\xa0\t\n Non-breaking space

    今天遇到一个问题,使用python的find函数寻找字符串中的第一个空格时没有找到正确的位置,例如: http://zc.whmc.edu.cn ==> 无法访问的网站或无效的招标网站 使用find(" ")函数寻找时找到的第一个空格对应在==>后面的那个位置.一开始觉得是编码问题,但是文件是用UTF-8编码的,按理说不应该产生编码问题,就用Sublime打开一看是这样的: 可以看到,我的Sublime设置了显示空白,所以第二个红线上方有一个白点,而第一个红线上方却没有,这

  • HTML转义字符&npsp;表示non-breaking space \xa0

    1.参考 Beautiful Soup and Unicode Problems 详细解释 unicodedata.normalize('NFKD',string) 实际作用??? Scrapy : Select tag with non-breaking space with xpath >>> selector.xpath(u''' ... //p[normalize-space()] ... [not(contains(normalize-space(), "\u00a0

  • js 转义字符及URI编码详解

    URL中的转义字符 当URL的参数中出现诸如+,空格,/,?,%,#,&,=等特殊字符串符号时,因为上述字符有特殊含义,导致服务器端无法正确解析参数,如何处理?解决办法:将这些字符转化成服务器可以识别的字符. 如果要在URL中传递特殊符号的原本意义,要对他们进行编码.编码的格式为:%加字符的ASCII码(16进制),例如空格的编码值是"%20". URL中特殊符号的用途及普通意义的编码 + URL 中+号表示空格 %2B 空格 URL中的空格可以用+号或者编码 %20 / 分隔

  • Lua学习笔记之数据类型

    从本篇博客开始研究一下Lua,现在的Lua真得是很火,因为Cocos2d-x写游戏的时候会用到,所以就拿过来学学吧,先从基础的语法开始,然后慢慢的深入.本人也是刚刚学习,希望和学习Lua的大家交流,博客权当笔记,有错误之处还请赐教. 当然首先是开发环境了,我的学习背景是Cocos2d-x,所以下载了最近发布的Cocos Code IDE版本,我们可以在Cocos Code IDE上边新建工程,然后写Lua测试代码,关于Cocos Code IDE的使用官方有不少的教程,这里就不说了.当然你也可以

  • XML 非法字符(转义字符)

    如往常一样, 客户发给我一个xml文件, 用来更新数码课堂日程安排--是一个js读取xml文件达到鼠标经过日历显示每日课程安排的效果,有类于Ajax数据读取(只不过数据是完全静态更新)的脚本程序 由于是两方来完成整个日程更新(客户把制作页面和更新网站分开), 给我的xml文件总是有问题, 由于经常做,知道制作方在html代码水平上还是比较初级, 所以每次更新前总要对他们给的文件校正, 果然还是有问题, 如往常一样,我检查文件内容的每个标签是否完整, 检查出一处错误,感觉应该OK了, 可是页面还是

  • PowerShell中直接输出转义字符或变量名称的方法

    本文介绍在PowerShell的字符串中,如何禁止字符串中某分字符被转义或部分字符被当作变量,即让字符串中所有的字符都原样输出. 在PowerShell中,转义字符是以字符(·)开头的一部分特殊字符,可以用于实现换行.TAB等功能.而变量则是以符号($)开头,代表一个值.之前的文章中我们介绍过转义字符,也介绍过在字符串中包含变量.有兴趣的朋友可以去了解一下. 在PowerShell中可以用一对双引号引起一个字符串,也可以使用一对单引号引起一个字符串.而用单引号与双引号最大的一个区别是,双引号引起

  • MySQL 转义字符使用说明

    MySQL的转义字符"\" mfc_basic MySQL识别下列转义字符: \0 一个ASCII 0 (NUL)字符. \n 一个新行符. \t 一个定位符. 制符分隔 \r 一个回车符. \b 一个退格符. \' 一个单引号("'")符. \" 一个双引号(""")符. 一个反斜线("\")符. \% 一个"%"符.它用于在正文中搜索"%"的文字实例,否则这里&q

  • 转义字符(\)对JavaScript中JSON.parse的影响概述

    按照ECMA262第五版中的解释,JSON是一个提供了stringify和parse方法的内置对象,前者用于将js对象转化为符合json标准的字符串,后者将符合json标准的字符串转化为js对象.json标准参考<a href="http://json.org/" target="_blank">json.org</a>.(其实将符合json标准的字符串转化为js对象可以用eval,但是eval性能相对差且存在安全隐患(会执行json字符串中

  • Oracle中转义字符的详细介绍

    最近工作中遇到一个需求,需要更新Oracle数据库中所有表的一个字段"flag"为"I",语句为: update table_name set flag = 'I' "I"作为字符串,所以语句中I需要加上单引号. 由于数据库中有多张表,我不想一条一条的语句写,希望能够通过sql语句直接生成所有的语句,所以写了如下sql: select 'update ' || table_name || ' set flag = 'I'' || ';' from

  • Linux中出现“No space left on device”错误的排查与解决方法

    前言 最近这两天登陆服务器,发现用 wget 下载文件的时候提示"No space left on device",而且连使用 tab 键进行补全时也会提示该错误. 之前遇到过一次这种问题,是由于磁盘空间被占满了,导致无法创建新文件.正常情况下,删除一些文件来释放空间,即可解决该问题. 当我使用 df 命令查看分区情况时,结果如下: # df -h Filesystem Size Used Avail Use% Mounted on /dev/vda1 29G 29G 0 100% /

随机推荐