Python中动态检测编码chardet的使用教程
前言
在互联网的世界里,每个页面都使用了编码,但是形形色色的编码让我们的代码何以得知其棉麻格式呢?charset将很好的解决这个问题。
1. chardet
chardet是Python社区提供了一个类库包,方便我们在代码中动态检测当前页面或者文件中的编码格式信息。接口非常的简单和易用。
Project主页: https://github.com/chardet/chardet
本地下载地址:http://xiazai.jb51.net/201707/yuanma/chardet(jb51.net).rar
文档主页: http://chardet.readthedocs.io/en/latest/usage.html
2. 使用示例
Notice: 笔者使用的python 3.5 +
Case 1: 检测特定页面的编码格式
import chardet import urllib.request TestData = urllib.request.urlopen('http://www.baidu.com/').read() print(chardet.detect(TestData))
输出结果:
{'confidence': 0.99, 'encoding': 'utf-8'}
结果分析, 其准确率99%的概率,编码格式为utf-8
使用说明:detect()
为其关键方法
Case 2: 增量检测编码格式
import urllib.request from chardet.universaldetector import UniversalDetector usock = urllib.request.urlopen('http://yahoo.co.jp/') detector = UniversalDetector() for line in usock.readlines(): detector.feed(line) if detector.done: break detector.close() usock.close() print(detector.result)
输出结果:
{'confidence': 0.99, 'encoding': 'utf-8'}
说明: 为了提高预测的准确性,基于dector.feed()
来实现持续的信息输入,在信息足够充足之后结束信息输入,给出相应的预测和判断。
如果需要复用detector方法,需要进行detector.reset()
进行重置,从而可以复用。
Case 3: 在安装chardet之后,可以基于命令行来检测文件编码
% chardetect somefile someotherfile somefile: windows-1252 with confidence 0.5 someotherfile: ascii with confidence 1.0
在系统层面,可以直接基于命令行来进行文件编码检测,非常简单易用。
3. 总结
chardet是非常易用和功能强大的Python包,相信大家在web世界中遨游之时,肯定会用上这个chardet的。 如有问题,欢迎大家反馈给我。
好了,以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对我们的支持。
相关推荐
-
python判断字符串编码的简单实现方法(使用chardet)
本文实例讲述了python判断字符串编码的方法.分享给大家供大家参考,具体如下: 安装chardet模块 chardet文件夹放在/usr/lib/python2.4/site-packages目录下 [root@sha-sso-data01 chardet]# python Python 2.4.3 (#1, Sep 21 2011, 19:55:41) [GCC 4.1.2 20080704 (Red Hat 4.1.2-51)] on linux2 Type "help", &q
-
python使用chardet判断字符串编码的方法
本文实例讲述了python使用chardet判断字符串编码的方法.分享给大家供大家参考.具体分析如下: 最近利用python抓取一些网上的数据,遇到了编码的问题.非常头痛,总结一下用到的解决方案. linux中vim下查看文件编码的命令 set fileencoding python中一个强力的编码检测包 chardet ,使用方法非常简单.linux下利用pip install chardet实现简单安装 import chardet f = open('file','r') fencodin
-
使用python的chardet库获得文件编码并修改编码
首先需要安装chardet库,有很多方式,我才用的是比较笨的方式:sudo pip install chardet 复制代码 代码如下: #!/usr/bin/env python# coding: UTF-8import sysimport osimport chardet def print_usage(): print '''usage: change_charset [file|directory] [charset] [output file]\n for example: cha
-
Python简单检测文本类型的2种方法【基于文件头及cchardet库】
本文实例讲述了Python简单检测文本类型的方法.分享给大家供大家参考,具体如下: 1.根据文件头. #是否为带BOM头的UTF8文件 def IsUtf8BomFile(pathfile): if b'\xef\xbb\xbf' == open(pathfile, mode='rb').read(3)): return True return False 2.用cchardet库. >>> import cchardet >>> cchardet.detect(ope
-
Python使用chardet判断字符编码
本文实例讲述了Python使用chardet判断字符编码的方法.分享给大家供大家参考.具体分析如下: Python中chardet 用来实现字符串/文件编码检测模板 1.chardet下载与安装 下载地址:http://pypi.python.org/pypi/chardet 下载chardet后,解压chardet压缩包,直接将chardet文件夹放在应用程序目录下,就可以使用import chardet开始使用chardet了,也可以将chardet拷贝到Python系统目录下,这样你所有的
-
python字符串编码识别模块chardet简单应用
python的字符串编码识别模块(第三方库): 官方地址: http://pypi.python.org/pypi/chardet import chardet import urllib # 可根据需要,选择不同的数据 TestData = urllib.urlopen('http://www.baidu.com/').read() print chardet.detect(TestData) # 运行结果: # {'confidence': 0.99, 'encoding': 'GB2312
-
Python中动态检测编码chardet的使用教程
前言 在互联网的世界里,每个页面都使用了编码,但是形形色色的编码让我们的代码何以得知其棉麻格式呢?charset将很好的解决这个问题. 1. chardet chardet是Python社区提供了一个类库包,方便我们在代码中动态检测当前页面或者文件中的编码格式信息.接口非常的简单和易用. Project主页: https://github.com/chardet/chardet 本地下载地址:http://xiazai.jb51.net/201707/yuanma/chardet(jb51.ne
-
python中判断文件编码的chardet(实例讲解)
1.实测,这个版本在32位window7和python3.2环境下正常使用. 2.使用方法:把解压后所得的chardet和docs两个文件夹拷贝到python3.2目录下的Lib\site-packages目录下就可以正常使用了. 3.判断文件编码的参考代码如下: file = open(fileName, "rb")#要有"rb",如果没有这个的话,默认使用gbk读文件. buf = file.read() result = chardet.detect(buf)
-
Python中动态创建类实例的方法
简介 在Java中我们可以通过反射来根据类名创建类实例,那么在Python我们怎么实现类似功能呢? 其实在Python有一个builtin函数import,我们可以使用这个函数来在运行时动态加载一些模块.如下: def createInstance(module_name, class_name, *args, **kwargs): module_meta = __import__(module_name, globals(), locals(), [class_name]) class_met
-
python中常用检测字符串相关函数汇总
本文实例汇总了python中常用检测字符串相关函数.分享给大家供大家参考.具体分析如下: 下面的python代码可用于检测字符串,包括是否全部为数字,是否包含数字,是否包含标题单词,是否包含大写字母,是否包含小写字母,是否包含空格,是否以指定的字符开头和结尾. my_string = "Hello World" my_string.isalnum() #检测所有字符是否都是数字 my_string.isalpha() #检测字符串中的所有字符是否都是字母 my_string.isdig
-
Python中字符串与编码示例代码
在最新的Python 3版本中,字符串是以Unicode编码的,即Python的字符串支持多语言 编码和解码 字符串在内存中以Unicode表示,在操作字符串时,经常需要str和bytes互相转换 如果在网络上传输或保存到磁盘上,则从内存读到的数据就是str,要把str变为以字节为单位的bytes,称为编码 如果从网络或磁盘上读取字节流,则从网络或磁盘上读到的数据就是bytes,要把bytes变为str,称为解码 为避免乱码问题,应当始终坚持使用UTF-8编码对str和bytes进行
-
对python中url参数编码与解码的实例详解
一.简介 在python中url,对于中文等非ascii码字符,需要进行参数的编码与解码. 二.关键代码 1.url编码 对字符串编码用urllib.parse包下的quote(string, safe='/', encoding=None, errors=None)方法. 对json格式的参数名和值编码,用urllib.parse包下的 urlencode(query, doseq=False, safe='', encoding=None, errors=None, quote_via=qu
-
python中字符串的编码与解码详析
1. 常用的编码 ASCII:只能表示一些字母,数字和特殊的字符,占一个字节 GBK:国家简体中文字符集和繁体字符集,兼容ASCII,占两个字节 Unicode:能够表示全世界上所有的字符,Unicode有人说占4个字节也有人说占2个字节,但中文占2个字节 UTF-8:Unicode的压缩版,占1~3个字节,其中中文占三个字节 2.补充:计算机表示的单位: bit: 位,计算机最小的表示单位 bytes:字节,最小的存储单位,1bytes=8bit,1bytes简写成1B 1KB = 1024B
-
Python 中 Elias Delta 编码详情
目录 1.分步实施 第1步: 第2步: 第3步: 第4步: 语法: Elias Delta Encoding(X)= Elias Gamma encoding (1+floor(log2(X)) + Binary representation of X without MSB. 1.分步实施 首先,在为 Elias Delta 编码编写代码之前,我们将实现 Elias delta 编码. 第1步: 从数学库导入 log.floor 函数以执行对数运算. 从用户获取输入 k 以在 Elias Ga
-
在 Python 中进行 One-Hot 编码
目录 1.介绍 2.什么是One-Hot编码? 3.实现-Pandas 4.实现-Scikit-Learn 5.One-hot编码在机器学习领域的应用 1.介绍 在计算机科学中,数据可以用很多不同的方式表示,自然而然地,每一种方式在某些领域都有其优点和缺点. 由于计算机无法处理分类数据,因为这些类别对它们没有意义,如果我们希望计算机能够处理这些信息,就必须准备好这些信息. 此操作称为预处理. 预处理的很大一部分是编码 - 以计算机可以理解的方式表示每条数据(该
-
Python中非常实用的Math模块函数教程详解
目录 math模块常数 1. 圆周率 2. Tau (τ) 3. 欧拉数 4. 无限 5. 不是数字 算术函数 1. factorial() 2. ceil() 3. floor() 4. trunc() 5. isclose() 幂函数 1. exp() 2. 对数函数 其他重要的math模块功能 由于该math模块与 Python 版本一起打包,因此您不必单独安装它,直接导入: import math math模块常数 Pythonmath模块提供了多种预定义常量.访问这些常量提供了几个优点
随机推荐
- Lua中的string库和强大的模式匹配学习笔记
- VBS教程:VBScript 语句-Property Set 语句
- android 将图片压缩到指定的大小的示例
- java 内部类的实例详解
- python之模拟鼠标键盘动作具体实现
- Javascript中获取对象的原型对象的方法小结
- jQuery Easyui 验证两次密码输入是否相等
- php异步:在php中使用fsockopen curl实现类似异步处理的功能方法
- Android App中的多个LinearLayout嵌套布局实例解析
- C++事件处理中的__hook与__unhook用法详解
- Android布局性能优化之按需加载View
- thinkPHP5.0框架简单配置作用域的方法
- Lua脚本自动生成APK包
- jquery实现静态搜索功能(可输入搜索文字)
- JavaScript中的正则表达式简明总结
- 基于java文件上传-原始的Servlet方式
- Java数组扩容实例代码
- springboot实现yml里的自定义配置方法
- python 将json数据提取转化为txt的方法
- nodejs中实现修改用户路由功能