python实现递归查找某个路径下所有文件中的中文字符
本文实例为大家分享了python实现递归查找某个路径下所有文件中的中文字符,供大家参考,具体内容如下
# -*- coding: utf-8 -*- # @ description: # @ author: # @ created: 2018/7/21 import re import sys import os reload(sys) sys.setdefaultencoding("utf8") def translate(str): out = set() line = str.strip().decode('utf-8', 'ignore') # 处理前进行相关的处理,包括转换成Unicode等 p2 = re.compile(ur'[^\u4e00-\u9fa5]') # 中文的编码范围是:\u4e00到\u9fa5 zh = " ".join(p2.split(line)).strip() # zh = "\n".join(zh.split()) #dsds经过相关处理后得到中文的文本 for s in zh.split(): out.add(s) # 经过相关处理后得到中文的文本 return out def extract_file(path): result = set() try: f = open(path) # 打开文件 lines = f.readlines() for line in lines: string = translate(line) if string: result.update(string) except Exception as e: pass return result def extract(path): result = set() files = os.listdir(path) for file in files: if not file.startswith("."): if not os.path.isdir(path + "/" + file): # 判断是否是文件夹,不是文件夹才打开ssgsg判断是否是文件夹,不是文件夹才打开 sub_file = extract_file(path + "/" + file) if sub_file: result.update(sub_file) else: print file child = extract(path + "/" + file) if child: result.update(child) return result if __name__ == '__main__': path = "/Users/common" result = extract(path) res_file = open("result.txt", "w") for s in result: res_file.write(s + "\n")
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。
相关推荐
-
Python利用递归和walk()遍历目录文件的方法示例
前言 经常需要检查一个"目录或文件夹"内部有没有我们想要的文件或者文件夹,就需要我们循环迭代出所有文件和子文件夹,Python中遍历指定目录下所有的文件和文件夹,包含多级目录,有两种方法,一种是通过递归思想去遍历,另一种是os模块的walk()函数下面话不多说,就来一起看看详细的介绍: 列出目录结构 一.递归方法 #coding:utf-8 import os allfile=[] def getallfile(path): allfilelist=os.listdir(path) f
-
使用go和python递归删除.ds store文件的方法
python版本: 复制代码 代码如下: #!/usr/bin/env pythonimport os, sys; def walk(path): print "cd directory:"+path for item in os.listdir(path): try: if(item == ".DS_Store"): global count count = count+1 print " find file .Ds_Store" os.rem
-
Python实现FTP上传文件或文件夹实例(递归)
本文实例讲述了Python实现FTP上传文件或文件夹实例.分享给大家供大家参考.具体如下: import sys import os import json from ftplib import FTP _XFER_FILE = 'FILE' _XFER_DIR = 'DIR' class Xfer(object): ''''' @note: upload local file or dirs recursively to ftp server ''' def __init__(self): s
-
使用 Python 实现文件递归遍历的三种方式
今天有个脚本需要遍历获取某指定文件夹下面的所有文件,我记得很早前也实现过文件遍历和目录遍历的功能,于是找来看一看,嘿,不看不知道,看了吓一跳,原来之前我竟然用了这么搓的实现. 先发出来看看: def getallfiles(dir): """遍历获取指定文件夹下面所有文件""" if os.path.isdir(dir): filelist = os.listdir(dir) for ret in filelist: filename = dir
-
Python实现递归遍历文件夹并删除文件
思路: 遍历文件夹下面的文件夹 如果文件夹名称等于".svn",则修改文件夹的属性(因为".svn"的文件都是只读的,你不能直接删除) 删除此文件夹 如果文件夹名称不等于".svn",则递归上面的方法 Python的实现 代码 import os import shutil import os.path import stat rootdir="F:\\work\\Test" for parent,dirnames,filen
-
Python利用递归实现文件的复制方法
如下所示: import os import time from collections import deque """ 利用递归实现目录的遍历 @para sourcePath:原文件目录 @para targetPath:目标文件目录 """ def getDirAndCopyFile(sourcePath,targetPath): if not os.path.exists(sourcePath): return if not os.pa
-
python 递归遍历文件夹,并打印满足条件的文件路径实例
题目:利用协程来遍历目录下,所有子文件及子文件夹下的文件是否含有某个字段值,并打印满足条件的文件的绝对路径. #!/user/bin/env python # -*- coding:utf-8 -*- #grep -rl "python" D:\devtools\workspace\python\aaa import os def init(func): def wrapper(*args,**kwargs): res=func(*args,**kwargs) res.send(Non
-
python递归下载文件夹下所有文件
最近想备份网站,但是php下载文件的大小是有大小限制的,而我也懒得装ftp再下载了,就想着暂时弄个二级域名站,然后用python(python3)的requests库直接下载网站根目录下的所有文件以及文件夹.(0-0就是这么任性) 1.安装requests库 pip install requests 2.下载文件夹下所有文件及文件夹 这里需要处理的地方主要是文件夹,这里我们判断出该链接是文件夹时,自动创建文件夹,并递归继续进行操作,否则判断该链接是文件,直接使用requests get方法下载,
-
python 实现文件的递归拷贝实现代码
所以就想把这些照片翻着看一遍,可是拷出来的照片手机 里是按时间自动分文件夹的,一个一个文件夹拷很是麻烦,于是打算写个python小脚本来完成这个工作(扯这么多,终于 到主题了,囧) 这是待拷贝的文件夹根目录,每个子目录下都有若干照片. 废话少说,上代码: 复制代码 代码如下: # -*- coding: utf-8 -*- #!/usr/bin/python #Filename:copyfile.py import os,shutil def mycopy(srcpath,dstpath): i
-
python实现递归查找某个路径下所有文件中的中文字符
本文实例为大家分享了python实现递归查找某个路径下所有文件中的中文字符,供大家参考,具体内容如下 # -*- coding: utf-8 -*- # @ description: # @ author: # @ created: 2018/7/21 import re import sys import os reload(sys) sys.setdefaultencoding("utf8") def translate(str): out = set() line = str.s
-
Python实现调用另一个路径下py文件中的函数方法总结
本文实例讲述了Python实现调用另一个路径下py文件中的函数方法.分享给大家供大家参考,具体如下: 针对这个问题,网上有很多的解决方式.其实最主要的原因是因为Python无法正确找到你其他文件夹下文件的路径.针对不同的环境和问题有不同的方法,大家可自行测试. 1. 方法一 首先,我先把解决我本人问题的方法记录如下.环境,Python为3.5,pycharm工作区间.主文件(main_preprocess.py)需要运用split_by_date.py中的函数,main_preprocess与s
-
python如何遍历指定路径下所有文件(按按照时间区间检索)
需求 要求 查找文件夹里某个日期区间内的word文档,全部word的名称和路径列出来,比如 7月5号到7月31号 D盘下的所有word文档. 修改文件类型 修改文件路径 检索文件修改时间区间 #conding=utf8 import os import time g = os.walk(r"F:\学习资料\week_home") def judge_time_file(path, file, update_time): if not file.endswith(('.doc','.do
-
python 获得任意路径下的文件及其根目录的方法
似乎有一段时间没有更新博客了,这里就写点小功能,轻松获得电脑任意路径下的文件及文件夹,并将其写入word,以下是主要代码: **import os** **from os import walk** # 获取文件夹的中的文件夹和文件夹里文件 def do_file(save_filepath,o_filepath): #定义函数 传入写入文档保存的位置和要操作的任意电脑路劲 file=open(save_filepath,"w+") # 遍历文件路径 for parent,dirnam
-
对python当中不在本路径的py文件的引用详解
众所周知,如果py文件不在当前路径,那么就不能import,因此,本文介绍如下两种有效的方法: 方法1: 修改环境变量,在~/.bashrc里面进行修改,然后source ~/.bashrc 方法2: 引入.pth文件 在site-packages添加一个路径文件,如mypkpath.pth,必须以.pth为后缀,写上你要加入的模块文件所在的目录名称就是了. 1 windows c:\python27\site-packages # 我们的学员把pth文件直接放在c:\python27 # (或
-
PHP使用递归方式列出当前目录下所有文件的方法
本文实例讲述了PHP使用递归方式列出当前目录下所有文件的方法.分享给大家供大家参考.具体实现方法如下: <?phpfunction filelist($pathname,$i){//定义一个filelist函数 $dir=opendir($pathname); while(($file=readdir($dir))!== false){ $fname=$pathname."/".$file; if(is_dir($fname)&&a
-
Python查找文件中包含中文的行方法
前言 近几天在做多语言版本的时候再次发现,区分各种语言真的是一件比较困难的事情,上一次做中文提取工具的就花了不少时间,这次决定用python试一试,结果写起来发现真是方便不少,自己整理了一下方便以后查找使用. 代码 #!/usr/bin/env python3 # -*- coding: utf-8 -*- # find the line of containing chinese in files __author__ = 'AlbertS' import re def start_find_
-
SpringBoot如何获取src/main/resource路径下的文件
目录 SpringBoot获取src/main/resource路径下的文件 SpringBoot打成jar包后,读取resources目录下的文件 一般方法 正确方法 SpringBoot获取src/main/resource路径下的文件 下面的ResourceUtils使用spring-core的工具包,在org.springframework.util包下 File file = ResourceUtils.getFile(ResourceUtils.CLASSPATH_URL_PREFI
-
使用Python和xlwt向Excel文件中写入中文的实例
Python等工具确实是不错的工具,但是有时候不管是基础的Python还是Python的软件包都让我觉得对中文不是很亲近.时不时地遇到一点问题很正常,刚刚在写Excel文件的时候就又遇到了这样的问题. 为了能够说明情况,假设我想把当前文件夹中所有的文件名称全都写入到Excel文件中. 当前的目录信息如下: grey@DESKTOP-3T80NPQ:/mnt/e/01_workspace/01_docs/02_blog/2017年/08月$ ls -l total 1464 -rwxrwxrwx
-
python读取txt文件中特定位置字符的方法
如下所示: # -*- coding:utf-8 -*- import sys reload(sys) sys.setdefaultencoding('utf8') fp = open("resources.txt", "r") sample = fp.readlines() file=open("test.txt", "w") for line in sample: sample_ = line.split('固定字符')
随机推荐
- PostgreSQL新手入门教程
- jquery事件绑定解绑机制源码解析
- js中Number数字数值运算后值不对的解决方法
- Oracle数据库安全策略分析(一)第1/2页
- .net发送邮件实现代码
- Bootstrap CSS组件之下拉菜单(dropdown)
- C#推送信息到APNs的方法
- thinkPHP3.x常量整理(预定义常量/路径常量/系统常量)
- php 文件缓存函数
- Django返回json数据用法示例
- Android引导页面的简单实现
- MySQL 1067错误解决方法集合
- 使用Docker容器搭建MySql主从复制
- android 上传文件到服务器代码实例
- PHP 观察者模式的实现代码
- jquery实现的V字形显示效果代码
- php上传文件的增强函数
- jQuery ajaxSubmit 实现ajax提交表单局部刷新
- Android仿微信拍摄短视频
- jQuery左侧大图右侧小图焦点图幻灯切换代码分享