python处理“&#”开头加数字的html字符方法

python如何处理“&#”开头加数字的html字符,比如:风水这类数据。

用python抓取数据时,有时会遇到想要数据是以“&#”开头加数字的字符,比如图中所示的这些:

风水大术士

这些字符需要再次转换才能变回中文内容。这些字符需要再次转换才能变回中文内容。

Python2.7版本

在python2.7版本中,使用import HTMLParser

定义变量,再定义转换代码。

代码中最重要的是“data_parser = HTMLParser.HTMLParser()”,通过此才能用“.unescape()”方法。

测试运行,这串字符串正常输出了中文。

Python3.7+版本

在最新python版本中,不能用上面的导入方法。可以用"import html"或者“from html import unescape”。这里使用"import html"做测试。

导入html后,直接用".unescape()"来处理字符串。

运行后,正常转换成了中文字符。

感谢大家的阅读和对我们的支持。

(0)

相关推荐

  • python字符串和常用数据结构知识总结

    使用字符串 第二次世界大战促使了现代电子计算机的诞生,当初的想法很简单,就是用计算机来计算导弹的弹道,因此在计算机刚刚诞生的那个年代,计算机处理的信息主要是数值,而世界上的第一台电子计算机ENIAC每秒钟能够完成约5000次浮点运算.随着时间的推移,虽然对数值运算仍然是计算机日常工作中最为重要的事情之一,但是今天的计算机处理得更多的数据都是以文本信息的方式存在的,而Python表示文本信息的方式我们在很早以前就说过了,那就是字符串类型.所谓字符串,就是由零个或多个字符组成的有限序列,一般记为$$

  • 详解Python字符串切片

    在python中,我们定义好一个字符串,如下所示. 在python中定义个字符串然后把它赋值给一个变量. 我们可以通过下标访问单个的字符,跟所有的语言一样,下标从0开始(==,我自己都觉得写的好脑残了) 这个时候呢,我们可以通过切片的方式来截取出我们定义的字符串的一部分. 使用切片的时候我们有两种方式: 1.没有步长的简单切片 语法格式是这样的: 1.首先定义一格字符串,比如叫 Hebe,然后给它赋值 2. 截取字符串中的一部分,我们用的语法是 Hebe [ start : stop ] 注意一

  • Python字符串的一些操作方法总结

    我们在进行编程学习的时候,不管学习什么编程语言都会用到字符串,对于字符串的一些操作,我们很有必要学的精通一点. 我们在操作字符串的时候用到split用法,主要用来将字符串根据某些特殊要求分割成为不同的几部分,如图所示,我们使用点号将字符串分成三部分分别提取出来. replace用法,主要是用来使用一些字符代替原来字符串中的一些字符,如图所示,我们将需要被替代的字符和要用到的衣服都写在括号中完成替代操作. strip可以用来去掉字符串前后面指定的一些字符,可以将字符串前后的空格去掉,特殊字符去掉,

  • Python中字符串与编码示例代码

    在最新的Python 3版本中,字符串是以Unicode编码的,即Python的字符串支持多语言 编码和解码 字符串在内存中以Unicode表示,在操作字符串时,经常需要str和bytes互相转换   如果在网络上传输或保存到磁盘上,则从内存读到的数据就是str,要把str变为以字节为单位的bytes,称为编码   如果从网络或磁盘上读取字节流,则从网络或磁盘上读到的数据就是bytes,要把bytes变为str,称为解码   为避免乱码问题,应当始终坚持使用UTF-8编码对str和bytes进行

  • python与字符编码问题

    用python2的小伙伴肯定会遇到字符编码的问题.下面对编码问题做个简单的总结,希望对各位有些帮助. 故事零:编码的定义 我们从"SOS"(国际通用求助信号)开始,它的摩斯密码的编码是: "-----",想一下为什么选用S.O.S来作为求救信号?因为它简单,容易辨别且不容易发错呀! 那么,字符编码就是: ´给定一系列字符,对每个字符赋予一个数值,用数值来代表对应的字符,这一数值就是字符的编码.例如,我们给字符'A'赋予数值0x41,则0x41就是字符'A'的编码.字

  • python处理“&#”开头加数字的html字符方法

    python如何处理"&#"开头加数字的html字符,比如:风水这类数据. 用python抓取数据时,有时会遇到想要数据是以"&#"开头加数字的字符,比如图中所示的这些: 风水大术士 这些字符需要再次转换才能变回中文内容.这些字符需要再次转换才能变回中文内容. Python2.7版本 在python2.7版本中,使用import HTMLParser 定义变量,再定义转换代码. 代码中最重要的是"data_parser = HTMLPars

  • Python 对输入的数字进行排序的方法

    要求,输入一串数字,并以列表的形式打印出来. number = input('请输入一串数字:') print(number) print(type(number)) 假设输入12345,得到结果如下: 请输入一串数字:12345 12345 <class 'str'> 可以看出,变量number类型为字符串类型. 将其转换成列表,如下所示: print(list(number)) 得到: ['1', '2', '3', '4', '5'] 显然,我们想得到是:[1,2,3,4,5],这种以数

  • Python列表之间的数字与字符转化实例

    1.将一个列表转化为一串数字 list1 = [0, 2, 3, 4, 5] for i in list1: print(i,end="") # 02345 2.将一个列表转化为一个字符列表 list1 = [] list2 = [0, 1, 0, 1, 1, 1] for i in list2: list1.append(str(i)) print(list1) # ['0', '1', '0', '1', '1', '1'] 可以简写为: list2 = [0, 1, 0, 1,

  • Python 实现RSA加解密文本文件

    近来在使用python写项目,特此记录一下项目中遇到的文件加解密问题. 关于python版本的加密算法,随便搜一搜还是可以检索出来很多的,不过大都是同一篇文章在不同的平台来回发布,或者就是转载,而且例举的都是最简单的情况,那么,实际项目中使用的话,肯定会比这个要稍微复杂一些,比如我的需求就是要加密一个使用mysqldump出来的数据库脚本文件,直接拿网上的例子过来调用肯定是不行的,所以不得不自己研究了一番,特此记录. RSA算法 什么是RSA算法? 项目选型的算法是RSA非对称加密算法,关于这个

  • Python入门篇之数字

    数字类型   数字提供了标量贮存和直接访问.它是不可更改类型,也就是说变更数字的值会生成新的对象.当然,这个过程无论对程序员还是对用户都是透明的,并不会影响软件的开发方式. Python 支持多种数字类型:整型.长整型.布尔型.双精度浮点型.十进制浮点型和复数. 创建数值对象并用其赋值 (数字对象) 创建数值对象和给变量赋值一样同样简单: 复制代码 代码如下: >>> anInt=1 >>> along=-555555555555L >>> afloa

  • 简单了解python字符串前面加r,u的含义

    这篇文章主要介绍了简单了解python字符串前面加r,u的含义,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 u/U:表示unicode字符串 不是仅仅是针对中文, 可以针对任何的字符串,代表是对字符串进行unicode编码. 一般英文字符在使用各种编码下, 基本都可以正常解析, 所以一般不带u:但是中文, 必须表明所需编码, 否则一旦编码转换就会出现乱码. 建议所有编码方式采用utf-8,即在py文件开头添加: # coding: utf-8

  • 浅析python字符串前加r、f、u、l 的区别

    先给大家介绍下Python 字符串前面加u,r,b,f的含义(字符串前缀) 1.字符串前加 u 例:u"我是含有中文字符组成的字符串." 作用: 后面字符串以 Unicode 格式 进行编码,一般用在中文字符串前面,防止因为源码储存格式问题,导致再次使用时出现乱码. 2.字符串前加 r 例:r"\n\n\n\n" # 表示一个普通生字符串 \n\n\n\n,而不表示换行了. 作用: 去掉反斜杠的转移机制. (特殊字符:即那些,反斜杠加上对应字母,表示对应的特殊含义的

  • Python基础笔记之struct和格式化字符

    目录 简介 struct中的方法 格式字符串 字节顺序,大小和对齐方式 格式字符 格式数字 格式字符 格式字符串 填充的影响 复杂应用 总结 简介 文件的存储内容有两种方式,一种是二进制,一种是文本的形式.如果是以文本的形式存储在文件中,那么从文件中读取的时候就会遇到一个将文本转换为Python中数据类型的问题.实际上即使是文本的形式存储,存储的数据也是也是有结构的,因为Python底层是用C来编写的,这里我们也称之为C结构. Lib/struct.py 就是负责进行这种结构转换的模块. str

  • python:关于文件加载及处理方式

    目录 关于文件加载及处理 1.检查python 2.对文件夹下面的文件名称进行列表排列 3.过滤不符合要求的文件 4.用于将元组转换为列表 5.打开文件codeces,open() 6.readlines() 7.strip() python文件处理(总结) 1.txt文件 2.csv文件操作 关于文件加载及处理 1.检查python 关于文件加载及处理方式文件路径是否存在,如果不存在就创建此路径. #如果不存在路径,就创建一个这样的路径     if not os.path.exists(ex

  • Python实现统计给定列表中指定数字出现次数的方法

    本文实例讲述了Python实现统计给定列表中指定数字出现次数的方法.分享给大家供大家参考,具体如下: 直接看实现: #!usr/bin/env python #encoding:utf-8 ''''' __Author__:沂水寒城 功能:给定一个列表计数指定数字出现的所有次数 ''' def count_num_func(num_list,num): ''''' 计数指定数字 ''' split_list=[] for one in num_list: split_list+=list(str

随机推荐