利用Python将文本中的中英文分离方法
在进行文本分析、提取关键词时,新闻评论等文本通常是中英文及其他语言的混杂,若不加处理直接分析,结果往往差强人意。
下面对中英文文本进行分离做一下总结:
1、超短文本,ASCII识别。
s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。" result = "".join(i for i in s if ord(i) < 256) print(result)
out: China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.
2、unicode编码识别
import re s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。" uncn = re.compile(r'[\u0061-\u007a,\u0020]') en = "".join(uncn.findall(s.lower())) print(en)
out: chinas legend holdings will split its several business arms to go public on stock markets, the groups president zhu linan said on tuesday
中文的编码范围是:\u4e00-\u9fa5,相应的[^\u4e00-\u9fa5]可匹配非中文。
匹配英文时,需要将空格[\u0020]加入,不然单词之间没空格了。
以上这篇利用Python将文本中的中英文分离方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们。
相关推荐
-
python实现mysql的读写分离及负载均衡
Oracle数据库有其公司开发的配套rac来实现负载均衡,目前已知的最大节点数能到128个,但是其带来的维护成本无疑是很高的,并且rac的稳定性也并不是特别理想,尤其是节点很多的时候. 但是,相对mysql来说,rac的实用性要比mysql的配套集群软件mysql-cluster要高很多.因为从网上了解到情况来看,很少公司在使用mysql-cluster,大多数企业都会选择第三方代理软件,例如MySQL Proxy.Mycat.haproxy等,但是这会引起另外一个问题:单点故障(包括mysql
-
将python代码和注释分离的方法
python的注释方式和C语言.C++.java有所不同 python语言中,使用'#' 来进行注释,其次还有使用 三个引号来进行注释 本文的程序将把 python 中 使用'#' 号 好 三个引号的注释分离出来, 当然也能再次合并回去 有需求的小伙伴可以来围观了 #!/usr/bin/python #coding=utf-8 import os import sys reload(sys) sys.setdefaultencoding('utf-8') class Comment_Filter
-
Python实现自定义读写分离代码实例
这篇文章主要介绍了Python实现自定义读写分离代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 思路 自定义Session类 重写get_bind方法 根据self._flushing判断读写操作, 选择对应的数据库 自定义SQLAlchemy类 重写create_session, 在其中使用自定义的Session类 from flask import Flask from flask_sqlalchemy import SQLAlch
-
Python Django 前后端分离 API的方法
步骤 根据之前的文章已经搭建好 Django的目录 开始流程 运行 manage.py 文件 # 创建一个app startapp ulb_manager settings.py 文件中 设置 INSTALLED_APPS = [ # 加入这句话 'apps.ulb_manager', ] MIDDLEWARE_CLASSES = [ # 关闭掉跨域的一些验证,注释掉下面这句话 # 'django.middleware.csrf.CsrfViewMiddleware', ] urls.py 文件
-
python 分离文件名和路径以及分离文件名和后缀的方法
分离路径和文件名: os.path.split() 区分文件的名字和后缀: os.path.splitext() import os file_path = "D:/test/test.py" (filepath, tempfilename) = os.path.split(file_path) (filename, extension) = os.path.splitext(tempfilename) 以上这篇python 分离文件名和路径以及分离文件名和后缀的方法就是小编分享给大家
-
Python读写/追加excel文件Demo分享
三个工具包 python操作excel的三个工具包如下,注意,只能操作.xls,不能操作.xlsx. • xlrd: 对excel进行读相关操作 • xlwt: 对excel进行写相关操作 • xlutils: 对excel读写操作的整合 这三个工具包都可以直接使用pip进行下载: sudo pip install xlrd sudo pip install xlwt sudo pip install xlutils1 xlwt的缺陷 xlwt只能创建一个全新的excel文件,然后对这个文件进行
-
使用Nginx+uWsgi实现Python的Django框架站点动静分离
由于: Django处理静态文件不太友好: 以后有可能需要处理php或者其他资源的请求: 所以考虑结合nginx,使用nignx做它擅长的路由分发功能:同时做动静分离,即Http请求统一由Nginx进行分发,静态文件由Nginx处理,并返回给客户端:而动态的请求,则分发到uWsgi,由uWsgi再分发给Django进行处理.即客户端 <-> nginx <-> socket <-> uwsgi <-> Django 一.环境 系统:centOS 6 pyth
-
利用Python将文本中的中英文分离方法
在进行文本分析.提取关键词时,新闻评论等文本通常是中英文及其他语言的混杂,若不加处理直接分析,结果往往差强人意. 下面对中英文文本进行分离做一下总结: 1.超短文本,ASCII识别. s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,
-
如何利用Python获取文本中的电话号码实例代码
目录 前言 打开文本 正则表达式遍历电话 最后拼接输出 完整的代码↓ 使用方法 补充:使用Python提取电话号码和E-mail地址 结语 前言 此编制利用Python的简单编程,实现获取txt文本里的电话号码. 这里小编使用了Python3.8.6,os.re库 打开文本 #事先新建文本readphone.txt,将要提取的文章内容复制到readphone.txt里. 下方为Python打开文本 TXTtemp = open("readphone.txt","r+"
-
利用python在excel中画图的实现方法
一.前言 以前大学时候,学EXCEL看到N多大神利用excel画图,觉得很不可思议.今个学了一个来月python,膨胀了就想用excel画图.当然,其实用画图这个词不甚严谨,实际上是利用opencv遍历每一个像素的rgb值,再将其转化为16进制,最后调用openpyxl进行填充即可. 1.1.实现效果 效果如下图 1.2.需要用到的库的安装 需要用到库如下: import cv2 #导入OpenCV库 import xlsxwriter #利用这个调整行高列宽 import openpyxl #
-
利用Python删除电脑中重复文件的方法
目录 前言 练习 代码演示 总结 前言 在生活中,我们经常会遇到电脑中文件重复的情况.在文件较少的情况下,这类情况还比较容易处理,最不济就是一个个手动对比删除:而在重复文件很多的时候,我们很难保证把重复文件全部删完.下面文章就来简单介绍便捷一个小方法,用Python来删除重复文件 练习 Python提供一个内置电脑文件管理库os模块,我们可以利用它来删除多余文件. 当一个文档里存在重复文件名,我们的系统会自动给我们重复的文件名更名, 比如下图的文件“1”重复了3次: 那我们该怎么删除文件“1”
-
python读取文本中的坐标方法
利用python读取文本文件很方便,用到了string模块,下面用一个小例子演示读取文本中的坐标信息. import string x , y , z = [] , [] ,[] with open("test.txt") as A: for eachline in A: tmp = eachline.split() x.append(string.atof(tmp[0])) y.append(string.atof(tmp[1])) z.append(string.atof(tmp[
-
利用python求解物理学中的双弹簧质能系统详解
前言 本文主要给大家介绍了关于利用python求解物理学中双弹簧质能系统的相关内容,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介绍吧. 物理的模型如下: 在这个系统里有两个物体,它们的质量分别是m1和m2,被两个弹簧连接在一起,伸缩系统为k1和k2,左端固定.假定没有外力时,两个弹簧的长度为L1和L2. 由于两物体有重力,那么在平面上形成摩擦力,那么摩擦系数分别为b1和b2.所以可以把微分方程写成这样: 这是一个二阶的微分方程,为了使用python来求解,需要把它转换为一阶微分方程
-
Python判断文本中消息重复次数的方法
本文实例讲述了Python判断文本中消息重复次数的方法.分享给大家供大家参考,具体如下: #coding:gbk ''' Created on 2012-2-3 从文件中读取文本,并判断文本中形如"message0"."message123"这样的消息有多少条是重复的 @author: Administrator ''' import re if __name__ == '__main__': pattern = u"(message((\d)+))&qu
-
python读取文本中数据并转化为DataFrame的实例
在技术问答中看到一个这样的问题,感觉相对比较常见,就单开一篇文章写下来. 从纯文本格式文件 "file_in"中读取数据,格式如下: 需要输出成"file_out",格式如下: 数据的原格式是"类别:内容",以空行"\n"为分条目,转换后变成一个条目一行,按照类别顺序依次写出内容. 建议读取后,使用pandas,把数据建立称DataFrame的表格.这样方便以后处理数据.但是原格式并不是通常的表格格式,所以要先做一些简单的处理
-
利用python对Excel中的特定数据提取并写入新表的方法
最近刚开始学python,正好实习工作中遇到对excel中的数据进行处理的问题,就想到利用python来解决,也恰好练手. 实际的问题是要从excel表中提取日期.邮件地址和时间,然后统计在一定时间段内某个人在某个项目上用了多少时间,最后做成一张数据透视表(这是问题的大致意思). 首先要做的就是数据提取了,excel中本身有一个text to column的功能,但是对列中规律性不好的数据处理效果很差,不能分割出想要的数据,所以我果断选择用python来完成. 要用的库一个是对excel读写处理
-
利用python对excel中一列的时间数据更改格式操作
问题场景:需要将下列的交期一列的数据格式更改成2019/05/10 存货编码 尺寸 数量 交期 0 K10Y0190000X B140 200 2019-05-10 00:00:00 1 K10Y0190000X B150 200 2019-05-10 00:00:00 2 K10Y0190000X B165 100 2019-05-10 00:00:00 3 K10Y0190000X B175 300 2019-05-10 00:00:00 4 K10Y0190000X B180 200 20
随机推荐
- 用JS判断IE版本的代码 超管用!
- JS实现按钮颜色切换效果
- ASP.NET中CheckBoxList复选框列表控件详细使用方法
- javascript不同类型数据之间的运算的转换方法
- javascript作用域、作用域链(菜鸟必看)
- 解决mac使用homebrew安装MySQL无法登陆问题
- 基于Node.js的JavaScript项目构建工具gulp的使用教程
- 在线ASC码查询
- java中Filter过滤器处理中文乱码的方法
- 打领带图文方法
- Tomcat中session的管理机制
- 数组指针、指针数组以及二位数组的深入解析
- Android Socket通信详解
- Android 下载并打开PDF,Doc,Dwg文档实例
- 华为S2100-EI系列以太网交换机
- 中华助企网为您提供500M免费空间服务
- 深入研究React中setState源码
- java String源码和String常量池的全面解析
- pandas使用get_dummies进行one-hot编码的方法
- 对Django的restful用法详解(自带的增删改查)