python BeautifulSoup设置页面编码的方法
在用BeautifulSoup进行抓取页面的时候,会各种各样的编码错误。
可以通过在beautifulsoup中指定字符编码,解决问题。
import urllib2
from BeautifulSoup import BeautifulSoup
page = urllib2.urlopen('http://www.163.com');
soup = BeautifulSoup(page,from_encoding="gb2312")
print soup.originalEncoding
print soup.prettify()
红色部分表示需要注意的地方。在BeautifulSoup构造器中传入fromEncoding参数即可解决乱码问题,当然具体参数值是什么就要看你获取页面的编码是什么
相关推荐
-
Python字符编码判断方法分析
本文实例讲述了Python字符编码判断方法.分享给大家供大家参考,具体如下: 方法一: isinstance(s, str) 用来判断是否为一般字符串 isinstance(s, unicode) 用来判断是否为unicode 或 if type(str).__name__!="unicode": str=unicode(str,"utf-8") else: pass 方法二: Python chardet 字符编码判断 使用 chardet 可以很方便的实现字符串
-
python编码总结(编码类型、格式、转码)
本文详细总结了python编码.分享给大家供大家参考,具体如下: [所谓unicode] unicode是一种类似于符号集的抽象编码,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储.也就是它只是一种内部表示,不能直接保存.所以存储时需要规定一种存储形式,比如utf-8和utf-16等.理论上unicode是一种能够容纳全世界所有语言文字的编码方案.(其他编码格式不再多说) [所谓GB码] GB就是"国标"的意思,即:中华人民共和国国家标准.GB码是面向汉字的编码,包括
-
Python设置默认编码为utf8的方法
本文实例讲述了Python设置默认编码为utf8的方法.分享给大家供大家参考,具体如下: 这是Python的编码问题,设置python的默认编码为utf8 python安装目录:/etc/python2.x/sitecustomize.py import sys reload(sys) sys.setdefaultencoding('utf-8') try: import apport_python_hook except ImportError: pass else: apport_pytho
-
Python中json格式数据的编码与解码方法详解
本文实例讲述了Python中json格式数据的编码与解码方法.分享给大家供大家参考,具体如下: python从2.6版本开始内置了json数据格式的处理方法. 1.json格式数据编码 在python中,json数据格式编码使用json.dumps方法. #!/usr/bin/env python #coding=utf8 import json users = [{'name': 'tom', 'age': 22}, {'name': 'anny', 'age': 18}] #元组对象也可以
-
Python使用email模块对邮件进行编码和解码的实例教程
解码邮件 python自带的email模块是个很有意思的东西,它可以对邮件编码解码,用来处理邮件非常好用. 处理邮件是一个很细致的工作,尤其是解码邮件,因为它的格式变化太多了,下面先看看一个邮件的源文件: Received: from 192.168.208.56 ( 192.168.208.56 [192.168.208.56] ) by ajax-webmail-wmsvr37 (Coremail) ; Thu, 12 Apr 2007 12:07:48 +0800 (CST) Date:
-
Python开发编码规范
这篇文档所给出的编码约定适用于在主要的Python发布版本中组成标准库的Python 代码,请查阅相关的关于在Python的C实现中C代码风格指南的描述. 这篇文档改编自Guido最初的<Python风格指南>一文,并从<Barry's style guide>中添加了部分内容.在有冲突的地方,Guide的风格规则应该是符合本PEP的意图(译注:指当有冲突时,应以Guido风格为准).这篇PEP仍然尚未完成(实际上,它可能永远都不会完成). 在这篇风格指导中的一致性是重要的
-
学习python处理python编码问题
概括.从python1.6开始就可以处理unicode字符了. 一.几种常见的编码格式. 1.1.ascii,用1个字节表示. 1.2.UTF-8,用1个至三个字节表示,表示ascii码时只占用1个字节,ascii编码是UTF-8的子集. 1.3.UTF-16,用2个字节表示,在python中,unicode的含义就是UTF-16. 二.python源文件的编码与解码,我们写的python程序从产生到执行的过程如下: 编辑器---->源代码---->解释器---->输出结果 2.1.编辑
-
Python编码类型转换方法详解
本文实例讲述了Python编码类型转换方法.分享给大家供大家参考,具体如下: 1:Python和unicode 为了正确处理多语言文本,Python在2.0版后引入了Unicode字符串. 2:python中的print 虽然python内部需要将文本编码转换为unicode编码来处理,而终端显示工作则由传统的Python字符串完成(实际上,Python的print语句根本无法打印出双字节的Unicode编码字符). python的print会对输出的unicode编码(对其它非unicode编
-
python判断字符串编码的简单实现方法(使用chardet)
本文实例讲述了python判断字符串编码的方法.分享给大家供大家参考,具体如下: 安装chardet模块 chardet文件夹放在/usr/lib/python2.4/site-packages目录下 [root@sha-sso-data01 chardet]# python Python 2.4.3 (#1, Sep 21 2011, 19:55:41) [GCC 4.1.2 20080704 (Red Hat 4.1.2-51)] on linux2 Type "help", &q
-
详解Python中使用base64模块来处理base64编码的方法
base64模块是用来作base64编码解码的.这种编码方式在电子邮件中是很常见的. 它可以把不能作为文本显示的二进制数据编码为可显示的文本信息.编码后的文本大小会增大1/3. 闲话不说了,base64模块真正用的上的方法只有8个,分别是encode, decode, encodestring, decodestring, b64encode,b64decode, urlsafe_b64decode,urlsafe_b64encode.他们8个可以两两分为4组,encode,decode一组,专
随机推荐
- 使用Python生成XML的方法实例
- Android修改字体样式的示例代码
- openresty中使用lua-nginx创建socket实例
- Vue组件选项props实例详解
- iOS10 推送完整剖析和注意事项
- Js,alert出现乱码问题的解决方法
- Bootstrap导航条可点击和鼠标悬停显示下拉菜单
- javascript避免数字计算精度误差的方法详解
- 详解JavaScript数组过滤相同元素的5种方法
- ASP.NET(C#)实现一次性动态上传多张图片的代码(多个文件)
- 详解Python各大聊天系统的屏蔽脏话功能原理
- php外部执行命令函数用法小结
- Android仿微信、QQ附近好友雷达扫描效果
- JavaScript中的style.cssText使用教程
- JavaScript字符串对象
- C#实现微信红包功能
- Android获取手机号码和运营商信息的方法
- C语言实现逆波兰式实例
- php_screw安装使用教程(另一个PHP代码加密实现)
- 组建分布式三层校园网