Python基于文件内容实现查找文件功能

目录
  • 文件查找操作
    • glob 的介绍
    • glob 的基本使用
  • 查找指定的文件
  • 基于文件内容查找文件

该章节将学习关于文件查找的操作,大家都知道,无论是 Linux 系统还是 Windows 系统都有基于文件名实现过滤、查找的功能。但是如果想要查找一些关于某些文件指定内容的文件,好像无论是 Linux 还是 Windows 明面上没有这样的功能了。这个时候就可以通过 Python 来实现这样的功能,通过该章节的学习,就可以学习到该功能的如何利用 Python 实现这样的操作。

文件查找操作

glob 的介绍

glob 包是一个快速查找文件夹中内容的包,可以通过模糊查找的形式找到我们想要的内容。

glob 的基本使用

导入包与模块

from glob import glob

使用方法

glob(任意目录)

返回内容:

指定路径下的内容列表,不存在的路径返回空列表。

代码示例如下:

# coding:utf-8

import os
from glob import glob

target = os.getcwd()

result = glob(target)
print(result)                   # 打印输出当前路径的文件夹

result = glob(target + '/*')
print(result)                   # 打印输出当前路径的文件夹下的所有文件

result = glob(target + '/*.py')
print(result)                   # 打印输出当前路径的文件夹下的所有以 "py" 结尾的文件

result = glob(target + '/*.zip')
print(result)                   # 打印输出当前路径的文件夹下的所有以 "zip" 结尾的文件

result = glob(target + '/filetest*')
print(result)                   # # 打印输出当前路径的文件夹下的所有以 "filetest" 开头的文件

运行结果如下:

查找指定的文件

已知条件:

想查找的文件名已经知道,但是目录在哪里并不知道。

实现方法:

利用 "glob" 从最上级目录开始查找,利用递归模式,不断的查找,直到找到为止。

代码示例如下:

# coding:utf-8

import glob

"""
获取当前路径下所有内容
判断每个内容的类型(文件夹还是文件)
若是文件夹则继续递归查找
"""

path = glob.os.path.join(glob.os.getcwd(), '*')     # 获取当前文件夹下的所有内容
                                                    # glob 模块其实已经包含了 "os" 模块
final_result = []       # 定义一个空列表,用以存储 search() 函数查到的内容

def search(path, target):       # 定义 search() 函数,传入 "path" 文件路径, "target" 要查找的目标文件
    result = glob.glob(path)

    for data in result:         # for 循环判断递归查到的内容是文件夹还是文件
        if glob.os.path.isdir(data):    # 若是文件夹,继续将该文件夹的路径传给 search() 函数继续递归查找
            _path = glob.os.path.join(data, '*')
            search(_path, target)
        else:                           # 若是文件,则将该查询到的文件所在路径插入 final_result 空列表
            if target in data:
                final_result.append(data)
    return final_result

if __name__ == '__main__':
    result = search(path, target='filetest.py')
    print(result)

运行结果如下:

基于文件内容查找文件

接下来我们看一下查找指定内容的文件:

已知条件:

文件中包含有某些关键字,但是不知道文件名和文件所在路径

实现方法:

利用 "glob" 从最上级目录开始查找,利用递归模式,不断的查找。如果是文件夹则进入继续查找,是文件则读取,判断是否包含该内容,返回该内容的文件名以及所在路径。

其实,基于文件内容查找文件实现的方式大体与上文的查找指定文件大体相似,只不过加入了读取文件的判断罢了。

代码示例如下:

# coding:utf-8

import glob

"""
获取当前路径下所有内容
判断每个内容的类型(文件夹还是文件)
若是文件夹则继续递归查找
"""

path = glob.os.path.join(glob.os.getcwd(), '*test04')     # 因为下文捕获不可读文件格式太多,所以这里直接指定了 "test04" 路径
final_result = []       # 定义一个空列表,用以存储 search() 函数查到的内容

def search(path, target):       # 定义 search() 函数,传入 "path" 文件路径, "target" 要查找的目标文件
    result = glob.glob(path)

    for data in result:         # for 循环判断递归查到的内容是文件夹还是文件
        if glob.os.path.isdir(data):    # 若是文件夹,继续将该文件夹的路径传给 search() 函数继续递归查找
            _path = glob.os.path.join(data, '*')
            search(_path, target)
        else:                           # 若是文件,则将该查询到的文件所在路径插入 final_result 空列表
            f = open(data, 'r')         # 利用 open() 函数读取文件,并通过 try...except... 捕获不可读的文件格式(.zip 格式)
            try:
                content = f.read()
                if target in content:
                    final_result.append(data)
            except:
                print('这是不可读文件格式的文件的所在路径:{} '.format(data))
                continue
            finally:
                f.close()
    return final_result

if __name__ == '__main__':
    result = search(path, target='测试文件')
    print(result)

运行结果如下:

到此这篇关于Python基于文件内容实现查找文件功能的文章就介绍到这了,更多相关Python文件查找内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • python 查找文件夹下所有文件 实现代码

    复制代码 代码如下: def find_file_by_pattern(pattern='.*', base=".", circle=True): '''''查找给定文件夹下面所有 ''' re_file = re.compile(pattern) if base == ".": base = os.getcwd() final_file_list = [] print base cur_list = os.listdir(base) for item in cur

  • python查找指定具有相同内容文件的方法

    本文实例讲述了python查找指定具有相同内容文件的方法.分享给大家供大家参考.具体如下: python代码用于查找指定具有相同内容的文件,可以同时指定多个目录 调用方式:python doublesdetector.py c:\;d:\;e:\ > doubles.txt # Hello, this script is written in Python - http://www.python.org # doublesdetector.py 1.0p import os, os.path,

  • python 文件查找及内容匹配方法

    需求:程序开发中有大量的接口,但在实际的使用中有一部分是没有使用的,在开发的程序中匹配这些接口名,找到哪些接口从没有使用过.将这些没有使用过的接口名保存下来. 代码结构: 结构解析: 1.find.py 是文件查找及匹配程序 2.input_files.txt是待匹配内容 文件格式如下: 3.result.txt 用于存放查找结果 格式同上 4.text.txt 用于测试的文档(可忽略) 实际代码: find.py #!/usr/bin/python # -*- coding: UTF-8 -*

  • python使用技巧-查找文件 

    标准库的fnmatch库专门用来进行文件名匹配,支持使用通配符进行字符串匹配. 1.fnmatch:判断文件名是否符合特定的模式: 2.fnmatchcase:判断文件名是否符合特定的模式,不区分大小写: 3.filter:返回输入列表中,符合特定模式的文件名列表: 4.translate:将通配符模式转换成正则表达式. fnmatchcase函数与fnmatch函数几乎一样,只是在匹配文件名时会忽略文件名中字母的大小写. filter函数与fnmatch函数比较类似,区别在于fnmatch每次

  • Python查找文件中包含中文的行方法

    前言 近几天在做多语言版本的时候再次发现,区分各种语言真的是一件比较困难的事情,上一次做中文提取工具的就花了不少时间,这次决定用python试一试,结果写起来发现真是方便不少,自己整理了一下方便以后查找使用. 代码 #!/usr/bin/env python3 # -*- coding: utf-8 -*- # find the line of containing chinese in files __author__ = 'AlbertS' import re def start_find_

  • Python 如何查找特定类型文件

    写在之前 今天的文章是介绍如何用 Python 去定位特定类型的文件,会讲到用字符串匹配文件名定位特定文件以及顺带介绍一下遍历目录树的函数,通过今天的这一部分以及之前文章讲到的文件获取属性的操作,可以做很多有意思的事情. 定位特定文件 定位特定的文件,可以使用 fnmatch 以及 glob 这两个标准库,我们下面来分别看一下. 1. 使用 fnmatch 标准库 一般的话我们想要查找特定类型的文件,可以通过字符串的前缀匹配和后缀匹配来查找,具体实例如下所示: >>> import os

  • Python基于文件内容实现查找文件功能

    目录 文件查找操作 glob 的介绍 glob 的基本使用 查找指定的文件 基于文件内容查找文件 该章节将学习关于文件查找的操作,大家都知道,无论是 Linux 系统还是 Windows 系统都有基于文件名实现过滤.查找的功能.但是如果想要查找一些关于某些文件指定内容的文件,好像无论是 Linux 还是 Windows 明面上没有这样的功能了.这个时候就可以通过 Python 来实现这样的功能,通过该章节的学习,就可以学习到该功能的如何利用 Python 实现这样的操作. 文件查找操作 glob

  • Python基于FTP模块实现ftp文件上传操作示例

    本文实例讲述了Python基于FTP模块实现ftp文件上传操作.分享给大家供大家参考,具体如下: #!/usr/bin/python #-*- coding:utf-8 -*- from ftplib import FTP #加载ftp模块 ftp=FTP() #设置变量 ftp.set_debuglevel(2) #打开调试级别2,显示详细信息 ftp.connect("IP","port") #连接的ftp sever和端口 ftp.login("us

  • python将字典内容写入json文件的实例代码

    python将字典内容写入json文件的方法:我们可以先使用json.dumps()函数将字典转换为字符串:然后再将内容写入json即可.json.dumps()函数负责对数据进行编码. 字典内容写入json时,需要用json.dumps将字典转换为字符串,然后再写入. json也支持格式,通过参数indent可以设置缩进,如果不设置的话,则保存下来会是一行. 举例: 无缩进: from collections import defaultdict, OrderedDict import jso

  • python基于搜索引擎实现文章查重功能

    前言 文章抄袭在互联网中普遍存在,很多博主都收受其烦.近几年随着互联网的发展,抄袭等不道德行为在互联网上愈演愈烈,甚至复制.黏贴后发布标原创屡见不鲜,部分抄袭后的文章甚至标记了一些联系方式从而使读者获取源码等资料.这种恶劣的行为使人愤慨. 本文使用搜索引擎结果作为文章库,再与本地或互联网上数据做相似度对比,实现文章查重:由于查重的实现过程与一般情况下的微博情感分析实现流程相似,从而轻易的扩展出情感分析功能(下一篇将在此篇代码的基础上完成数据采集.清洗到情感分析的整个过程). 由于近期时间上并不充

  • Python基于PyGraphics包实现图片截取功能的方法

    本文实例讲述了Python基于PyGraphics包实现图片截取功能的方法.分享给大家供大家参考,具体如下: 先安安装PyGraphics包 (python import media模块) 有一段代码要import media,打开python自带的IDLE,输入: >>>import media 就会提示没有media这个模块! 原来media模块不是系统的标准模块,需要安装第三方软件后才能用.这个库是在PyGraphics里,不过PyGraphics依赖一些别的库.可以这样安装(可参

  • Python基于socket模块实现UDP通信功能示例

    本文实例讲述了Python基于socket模块实现UDP通信功能.分享给大家供大家参考,具体如下: 一 代码 1.接收端 import socket #使用IPV4协议,使用UDP协议传输数据 s=socket.socket(socket.AF_INET, socket.SOCK_DGRAM) #绑定端口和端口号,空字符串表示本机任何可用IP地址 s.bind(('', 5000)) while True: data, addr=s.recvfrom(1024) #显示接收到的内容 print(

  • Python基于opencv实现的简单画板功能示例

    本文实例讲述了Python基于opencv实现的简单画板功能.分享给大家供大家参考,具体如下: import cv2 import numpy as np drawing = False # true if mouse is pressed ix,iy = -1,-1 def nothing(x): pass # mouse callback function def draw_circle(event,x,y,flags,param): global ix,iy,drawing g = par

  • Python基于pyCUDA实现GPU加速并行计算功能入门教程

    本文实例讲述了Python基于pyCUDA实现GPU加速并行计算功能.分享给大家供大家参考,具体如下: Nvidia的CUDA 架构为我们提供了一种便捷的方式来直接操纵GPU 并进行编程,但是基于 C语言的CUDA实现较为复杂,开发周期较长.而python 作为一门广泛使用的语言,具有 简单易学.语法简单.开发迅速等优点.作为第四种CUDA支持语言,相信python一定会 在高性能计算上有杰出的贡献–pyCUDA. pyCUDA特点 CUDA完全的python实现 编码更为灵活.迅速.自适应调节

  • python基于TCP实现的文件下载器功能案例

    本文实例讲述了python基于TCP实现的文件下载器功能.分享给大家供大家参考,具体如下: 服务器 参考代码如下: from socket import * import sys def get_file_content(file_name): """获取文件的内容""" try: with open(file_name, "rb") as f: content = f.read() return content except

  • python 基于selenium实现鼠标拖拽功能

    1.准备html文件 首先我们需要准备一个鼠标滑动的html文件,用来演示鼠标滑动的效果,注意需要将我们的html文件放在自己的服务器上, 这样我们才能够通过selenium来进行验证.html文件如下: <html> <head> <meta charset="utf-8" /> <style> body { margin: 0; padding: 0; } input{ appearance:none; -moz-appearance

随机推荐