Python使用chardet判断字符编码
本文实例讲述了Python使用chardet判断字符编码的方法。分享给大家供大家参考。具体分析如下:
Python中chardet 用来实现字符串/文件编码检测模板
1、chardet下载与安装
下载地址:http://pypi.python.org/pypi/chardet
下载chardet后,解压chardet压缩包,直接将chardet文件夹放在应用程序目录下,就可以使用import chardet开始使用chardet了,也可以将chardet拷贝到Python系统目录下,这样你所有的python程序只要用import chardet就可以了。
python setup.py install
2、实例
使用中,chardet.detect()返回字典,其中confidence是检测精确度,encoding是编码形式
(1)网页编码判断:
>>> import urllib >>> rawdata = urllib.urlopen('http://www.google.cn/').read() >>> import chardet >>> chardet.detect(rawdata) {'confidence': 0.98999999999999999, 'encoding': 'GB2312'}
(2)文件编码判断
import chardet tt=open('c:\\111.txt','rb') ff=tt.readline() #这里试着换成read(5)也可以,但是换成readlines()后报错 enc=chardet.detect(ff) print enc['encoding'] tt.close()
希望本文所述对大家的Python程序设计有所帮助。
相关推荐
-
python使用chardet判断字符串编码的方法
本文实例讲述了python使用chardet判断字符串编码的方法.分享给大家供大家参考.具体分析如下: 最近利用python抓取一些网上的数据,遇到了编码的问题.非常头痛,总结一下用到的解决方案. linux中vim下查看文件编码的命令 set fileencoding python中一个强力的编码检测包 chardet ,使用方法非常简单.linux下利用pip install chardet实现简单安装 import chardet f = open('file','r') fencodin
-
python字符串编码识别模块chardet简单应用
python的字符串编码识别模块(第三方库): 官方地址: http://pypi.python.org/pypi/chardet import chardet import urllib # 可根据需要,选择不同的数据 TestData = urllib.urlopen('http://www.baidu.com/').read() print chardet.detect(TestData) # 运行结果: # {'confidence': 0.99, 'encoding': 'GB2312
-
Python简单检测文本类型的2种方法【基于文件头及cchardet库】
本文实例讲述了Python简单检测文本类型的方法.分享给大家供大家参考,具体如下: 1.根据文件头. #是否为带BOM头的UTF8文件 def IsUtf8BomFile(pathfile): if b'\xef\xbb\xbf' == open(pathfile, mode='rb').read(3)): return True return False 2.用cchardet库. >>> import cchardet >>> cchardet.detect(ope
-
python判断字符串编码的简单实现方法(使用chardet)
本文实例讲述了python判断字符串编码的方法.分享给大家供大家参考,具体如下: 安装chardet模块 chardet文件夹放在/usr/lib/python2.4/site-packages目录下 [root@sha-sso-data01 chardet]# python Python 2.4.3 (#1, Sep 21 2011, 19:55:41) [GCC 4.1.2 20080704 (Red Hat 4.1.2-51)] on linux2 Type "help", &q
-
使用python的chardet库获得文件编码并修改编码
首先需要安装chardet库,有很多方式,我才用的是比较笨的方式:sudo pip install chardet 复制代码 代码如下: #!/usr/bin/env python# coding: UTF-8import sysimport osimport chardet def print_usage(): print '''usage: change_charset [file|directory] [charset] [output file]\n for example: cha
-
Python中动态检测编码chardet的使用教程
前言 在互联网的世界里,每个页面都使用了编码,但是形形色色的编码让我们的代码何以得知其棉麻格式呢?charset将很好的解决这个问题. 1. chardet chardet是Python社区提供了一个类库包,方便我们在代码中动态检测当前页面或者文件中的编码格式信息.接口非常的简单和易用. Project主页: https://github.com/chardet/chardet 本地下载地址:http://xiazai.jb51.net/201707/yuanma/chardet(jb51.ne
-
Python使用chardet判断字符编码
本文实例讲述了Python使用chardet判断字符编码的方法.分享给大家供大家参考.具体分析如下: Python中chardet 用来实现字符串/文件编码检测模板 1.chardet下载与安装 下载地址:http://pypi.python.org/pypi/chardet 下载chardet后,解压chardet压缩包,直接将chardet文件夹放在应用程序目录下,就可以使用import chardet开始使用chardet了,也可以将chardet拷贝到Python系统目录下,这样你所有的
-
C#简单判断字符编码的方法
本文实例讲述了C#简单判断字符编码的方法.分享给大家供大家参考,具体如下: public static string GetText(byte[] buff) { string strReslut = string.Empty; if (buff.Length > 3) { if (buff[0] == 239 && buff[1] == 187 && buff[2] == 191) {// utf-8 strReslut = Encoding.UTF8.GetStr
-
Python获取系统默认字符编码的方法
本文实例讲述了Python获取系统默认字符编码的方法.分享给大家供大家参考.具体分析如下: 在Python代码中,普通字符串的编码方式与程序源文件编码方式一致的,而很多IDE在默认情况下,将程序源文件按照系统默认字符编码来保存的. 下面给出用Python获取系统默认编码的例子: #!/usr/bin/env python #coding=utf-8 """ 获取系统默认编码 """ import sys print sys.getdefaulte
-
C#判断字符编码的方法总结(六种方法)
本文实例总结了C#判断字符编码的方法.分享给大家供大家参考,具体如下: 方法一 在unicode 字符串中,中文的范围是在4E00..9FFF:CJK Unified Ideographs. 通过对字符的unicode编码进行判断来确定字符是否为中文. protected bool IsChineseLetter(string input,int index) { int code = 0; int chfrom = Convert.ToInt32("4e00", 16); //范围(
-
ajax代理程序,自动判断字符编码
由于ajax在跨域的访问上有问题,目前最好的方法是做代理.写了个代理程序和心得 为了做ajax的代理,研究了下服务器端的xmlhttp并和客户端的ajax中的xmlhttp做了个比较,后台代码是asp的 服务器端的xmlhttp也就是asp小偷程序,我把代码改成了javascript. 1.在服务器端的xmlhttp.Open("GET",url,false)异步必须是关闭的,而客户端的异步是打开的,这个很好理解. 2.在服务器端的xmlhttp.Responsebody 这里用的是R
-
跟老齐学Python之坑爹的字符编码
字符编码,在编程中,是一个让学习者比较郁闷的东西,比如一个str,如果都是英文,好说多了.但恰恰不是如此,中文是我们不得不用的.所以,哪怕是初学者,都要了解并能够解决字符编码问题. >>> name = '老齐' >>> name '\xe8\x80\x81\xe9\xbd\x90' 在你的编程中,你遇到过上面的情形吗?认识最下面一行打印出来的东西吗?看人家英文,就好多了 >>> name = "qiwsir" >>&g
-
彻底搞懂Python字符编码
不论你是有着多年经验的 Python 老司机还是刚入门 Python 不久,你一定遇到过UnicodeEncodeError.UnicodeDecodeError 错误,每当遇到错误我们就拿着 encode.decode 函数翻来覆去的转换,有时试着试着问题就解决了,有时候怎么试都没辙,只有借用 Google 大神帮忙,但似乎很少去关心问题的本质是什么,下次遇到类似的问题重蹈覆辙,那么你有没有想过一次性彻底把 Python 字符编码给搞懂呢? 完全理解字符编码 与 Python 的渊源前,我们有
-
Python中字符编码简介、方法及使用建议
1. 字符编码简介 1.1. ASCII ASCII(American Standard Code for Information Interchange),是一种单字节的编码.计算机世界里一开始只有英文,而单字节可以表示256个不同的字符,可以表示所有的英文字符和许多的控制符号.不过ASCII只用到了其中的一半(\x80以下),这也是MBCS得以实现的基础. 1.2. MBCS 然而计算机世界里很快就有了其他语言,单字节的ASCII已无法满足需求.后来每个语言就制定了一套自己的编码,由于单字节
-
深入浅析Python字符编码
Python的字符串编码规则一直让我很头疼,花了点时间研究了下,并不复杂.主要涉及的内容有常用的字符编码的特点,并介绍了在python2.x中如何与编码问题作战,本文关于Python的内容仅适用于2.x,3.x中str和unicode有翻天覆地的变化,具体请查阅相关资料. 1. 字符编码简介 1.1. ASCII ASCII(American Standard Code for Information Interchange),是一种单字节的编码.计算机世界里一开始只有英文,而单字节可以表示25
随机推荐
- angular.element方法汇总
- 用hta与ajax实现的五笔字型编码查询工具
- Linux下yum安装nginx教程
- Lua字符串库(string库)学习笔记
- JavaScript中原型和原型链详解
- js清空表单数据的两种方式(遍历+reset)
- 利用百度地图JSAPI生成h7n9禽流感分布图实现代码
- 用photoshop制作逼真的蒲公英步骤第1/2页
- 计算机中数的表示
- Java设计模式编程中的工厂方法模式和抽象工厂模式
- PHP内置的Math函数效率测试
- javascript学习随笔(编写浏览器脚本 Navigator Scripting )
- Ajax与服务器(JSON)通信实例代码
- php中filter函数验证、过滤用户输入的数据
- 过滤掉危险的HTML标记:script,ifame,object
- js日期插件dateHelp获取本月、三个月、今年的日期
- require简单实现单页应用程序(SPA)
- javascript获取所有同类checkbox选项(实例代码)
- servlet3新特性_动力节点Java学院整理
- javascript读取xml实现javascript分页