python根据unicode判断语言类型实例代码

本文实例主要实现的是python根据unicode判断语言类型,具体如下。

实例代码:

def is_chinese(uchar):
"""判断一个unicode是否是汉字"""
  if uchar >= u'\u4e00' and uchar<=u'\u9fa5':
    return True
  else:
    return False 

def is_number(uchar):
"""判断一个unicode是否是数字"""
  if uchar >= u'\u0030' and uchar<=u'\u0039':
    return True
  else:
    return False 

def is_alphabet(uchar):
"""判断一个unicode是否是英文字母"""
  if (uchar >= u'\u0041' and uchar<=u'\u005a') or (uchar >= u'\u0061' and uchar<=u'\u007a'):
    return True
  else:
    return False 

def is_other(uchar):
"""判断是否非汉字,数字和英文字符"""
  if not (is_chinese(uchar) or is_number(uchar) or is_alphabet(uchar)):
    return True
  else:
    return False 

def B2Q(uchar):
"""半角转全角"""
  inside_code=ord(uchar)
  if inside_code<0x0020 or inside_code>0x7e: #不是半角字符就返回原来的字符
    return uchar
  if inside_code==0x0020: #除了空格其他的全角半角的公式为:半角=全角-0xfee0
    inside_code=0x3000
  else:
    inside_code+=0xfee0
  return unichr(inside_code) 

def Q2B(uchar):
"""全角转半角"""
  inside_code=ord(uchar)
  if inside_code==0x3000:
    inside_code=0x0020
  else:
    inside_code-=0xfee0
  if inside_code<0x0020 or inside_code>0x7e: #转完之后不是半角字符返回原来的字符
    return uchar
  return unichr(inside_code) 

def stringQ2B(ustring):
"""把字符串全角转半角"""
  return "".join([Q2B(uchar) for uchar in ustring]) 

def uniform(ustring):
"""格式化字符串,完成全角转半角,大写转小写的工作"""
  return stringQ2B(ustring).lower() 

def string2List(ustring):
"""将ustring按照中文,字母,数字分开"""
retList=[]
utmp=[]
for uchar in ustring:
if is_other(uchar):
if len(utmp)==0:
continue
else:
retList.append("".join(utmp))
utmp=[]
else:
utmp.append(uchar)
if len(utmp)!=0:
retList.append("".join(utmp))
return retList 

总结

以上就是本文关于python根据unicode判断语言类型实例代码的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

您可能感兴趣的文章:

  • Python原始字符串与Unicode字符串操作符用法实例分析
  • python将unicode转为str的方法
  • python实现unicode转中文及转换默认编码的方法
  • Unicode和Python的中文处理
  • python解决汉字编码问题:Unicode Decode Error
  • Python中的字符串操作和编码Unicode详解
  • Python 编码处理-str与Unicode的区别
(0)

相关推荐

  • Python原始字符串与Unicode字符串操作符用法实例分析

    本文实例讲述了Python原始字符串与Unicode字符串操作符用法.分享给大家供大家参考,具体如下: #coding=utf8 ''''' 在原始字符串里,所有的字符串都是直接按照字面的意思来使用, 没有转义特殊或不能打印的字符. 正则表达式是一些告诫搜索匹配方式的字符串, 通过是由代表字符.分组.匹配信息.变量名.字符类等的特殊符号组成. 在原始字符串紧靠第一个引号前,需要加上r或R字母,来表示该字符是原始字符串. 原始字符串和普通字符串有这几乎完全相同的语法. Unicode字符串操作符,

  • python将unicode转为str的方法

    问题:  将u'\u810f\u4e71'转换为'\u810f\u4e71' 方法: s_unicode = u'\u810f\u4e71' s_str = s_unicode.encode('unicode-escape').decode('string_escape') 以上这篇python将unicode转为str的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们.

  • python实现unicode转中文及转换默认编码的方法

    本文实例讲述了python实现unicode转中文及转换默认编码的方法.分享给大家供大家参考,具体如下: 一.在爬虫抓取网页信息时常需要将类似"\u4eba\u751f\u82e6\u77ed\uff0cpy\u662f\u5cb8"转换为中文,实际上这是unicode的中文编码.可用以下方法转换: 1. >>> s = u'\u4eba\u751f\u82e6\u77ed\uff0cpy\u662f\u5cb8' >>> print s 人生苦短,

  • python解决汉字编码问题:Unicode Decode Error

    前言 最近由于项目需要,需要读取一个含有中文的txt文档,完了还要保存文件.文档之前是由base64编码,导致所有汉字读取显示乱码.项目组把base64废弃之后,先后出现两个错误: ascii codec can't encode characters in position ordinal not in range 128 UnicodeDecodeError: 'utf8' codec can't decode byte 0x. 如果对于ascii.unicode和utf-8还不了解的小伙伴

  • Python 编码处理-str与Unicode的区别

    一篇关于STR和UNICODE的好文章 整理下python编码相关的内容 注意: 以下讨论为Python2.x版本, Py3k的待尝试 开始 用python处理中文时,读取文件或消息,http参数等等 一运行,发现乱码(字符串处理,读写文件,print) 然后,大多数人的做法是,调用encode/decode进行调试,并没有明确思考为何出现乱码 所以调试时最常出现的错误 错误1 Traceback (most recent call last): File "<stdin>"

  • Python中的字符串操作和编码Unicode详解

    本文主要给大家介绍了关于 Python中的字符串操作和编码Unicode的一些知识,下面话不多说,需要的朋友们下面来一起学习吧. 字符串类型 str:Unicode字符串.采用''或者r''构造的字符串均为str,单引号可以用双引号或者三引号来代替.无论用哪种方式进行制定,在Python内部存储时没有区别. bytes:二进制字符串.由于jpg等其他格式的文件不能用str进行显示,所以才用bytes来表示,bytes的每个字节为一个0-255的数字.如果打印的时候,Python会把能够用ASCI

  • Unicode和Python的中文处理

    在Python语言中,Uincode字符串处理一直是一个容易让人迷惑的问题.许多Python爱好者经常因为搞不清Unicode.UTF-8还有其它许许多多的编码之间的区别而大伤脑筋.笔者曾经也是这"伤脑筋一族"的成员,但经过半年多的努力,现在终于初步弄清楚其中的一些关系.现将其整理如下,与各位同仁同享.同时也希望能借这篇短文抛砖引玉,吸引更多真正的高手加入进来,共同完善我们的Python中文环境. 本文所提到的各种观点,一部分是查阅资料所得,还有一部分是笔者利用已有各种编码数据用&qu

  • python根据unicode判断语言类型实例代码

    本文实例主要实现的是python根据unicode判断语言类型,具体如下. 实例代码: def is_chinese(uchar): """判断一个unicode是否是汉字""" if uchar >= u'\u4e00' and uchar<=u'\u9fa5': return True else: return False def is_number(uchar): """判断一个unicode是否是

  • 用python做一个搜索引擎(Pylucene)的实例代码

    1.什么是搜索引擎? 搜索引擎是"对网络信息资源进行搜集整理并提供信息查询服务的系统,包括信息搜集.信息整理和用户查询三部分".如图1是搜索引擎的一般结构,信息搜集模块从网络采集信息到网络信息库之中(一般使用爬虫):然后信息整理模块对采集的信息进行分词.去停用词.赋权重等操作后建立索引表(一般是倒排索引)构成索引库:最后用户查询模块就可以识别用户的检索需求并提供检索服务啦. 图1 搜索引擎的一般结构 2. 使用python实现一个简单搜索引擎 2.1 问题分析 从图1看,一个完整的搜索

  • python的staticmethod与classmethod实现实例代码

    本文源于一时好奇,想要弄清出python的staticmethod()这一builtin方法的实现,查了一些资料(主要是python官方手册了)汇集于此 python在类中,有三种调用method的方法:普通method,staticmethod和classmethod 前两个应该都好理解,classmethod就是在调用这个函数的时候,会把调用对象的class object对象隐式地传进去.咦?这个class object不是一个类型?No,在python里面,class object不像静态

  • 用python将word文档合并实例代码

    目录 背景: 设计思路: 脚本环境说明: 完整代码: 功能执行效果图: 总结: 背景:         由于工作需要,现在有这么一个需求,要合并大量的word文档,而且要在不同的目录下找到同一个人的word文档,进行合并,最终输出一个合并后的word文档.一般来说几个或者十几个量不多的话,就手工合并一下好了,但现在这个量是真的大.目录有十多个,每个目录又有50多个不同人的word文档,而且同一个人在不同目录下又不一定都有word文档,因此,整个合并工作就出现了人工操作的困难: 工作量多:容易疏漏

  • JSP使用Common FileUpload组件实现文件上传及限制上传类型实例代码

    1.将commons-fileupload-1.3.3.jar复制到Web应用的lib文件夹下,在WebRoot目录下创建limit.jsp页面,在该页面中添加一个文件域的表单,设置类型为    multipart/form-data.代码如下: <body> <h2>上传图书课件</h2> <form action="LimitFile" name="one" enctype="multipart/form-da

  • 使用Python写一个贪吃蛇游戏实例代码

    我在程序中加入了分数显示,三种特殊食物,将贪吃蛇的游戏逻辑写到了SnakeGame的类中,而不是在Snake类中. 特殊食物: 1.绿色:普通,吃了增加体型 2.红色:吃了减少体型 3.金色:吃了回到最初体型 4.变色食物:吃了会根据食物颜色改变蛇的颜色 #coding=UTF-8 from Tkinter import * from random import randint import tkMessageBox class Grid(object): def __init__(self,

  • python+matplotlib实现动态绘制图片实例代码(交互式绘图)

    本文研究的主要是python+matplotlib实现动态绘制图片(交互式绘图)的相关内容,具体介绍和实现代码如下所示. 最近在研究动态障碍物避障算法,在Python语言进行算法仿真时需要实时显示障碍物和运动物的当前位置和轨迹,利用Anaconda的Python打包集合,在Spyder中使用Python3.5语言和matplotlib实现路径的动态显示和交互式绘图(和Matlab功能类似). Anaconda是一个用于科学计算的Python发行版,支持 Linux, Mac, Windows系统

  • Python中常用信号signal类型实例

    本文研究的主要是Python中的Signal 信号的相关内容,具体如下. 常用信号类型 SIGINT 终止进程 中断进程,不可通过signal.signal()捕捉(相当于Ctrl+C) SIGTERM 终止进程 软件终止信号,可通过signal.signal()捕捉(默认信号,当os.kill()没有指明信号类型时,默认的是该信号) SIGKILL 终止进程 杀死进程,不可捕捉(相当于linux下的kill命令,windows下使用会抛出异常) SIGALRM 闹钟信号 可以通过signal.

  • python将字典内容存入mysql实例代码

    本文主要研究的是python将字典内容存入mysql,分享了实现代码,具体介绍如下. 1.背景 项目需要,用python实现了将字典内容存入本地的mysql数据库.比如说有个字典dic={"a":"b","c":"d"},存入数据库效果图如下: 2.代码 ''''' Insert items into database @author: hakuri ''' import MySQLdb def InsertData(Tabl

  • Python实现Pig Latin小游戏实例代码

    前言: 本文研究的主要是Python实现pig Latin小游戏的简单代码,具体介绍如下. Pig Latin是一个语言游戏. 步骤: 1.让用户输入一个英文单词 2.确保用户输入一个有效单词 3.将单词转换成Pig Latin 4.显示转换结果 一.Input 函数:raw_input()用于输出一个字符串并等待键盘输入某字符串,最后以Enter(或Return)结束输入 original = raw_input("Enter a word:") print original 上述中

随机推荐