Python遍历目录下文件、读取、千万条数据合并详情

目录
  • 一、使用Python进行文件和文件夹的判断
  • 二、使用Python完整的获取所有文件及文件夹并读取相应的文件
  • 三、使用Python合并数据
    • append的使用

一、使用Python进行文件和文件夹的判断

  • 递归 :主要目的就是遍历文件夹和文件
  • 对文件夹和文件进行属性判断
  • 首先对文件夹进行遍历,看文件夹里有什么样的文件,读取出文件夹中的所有文件
import os
path= "./data" #路径
files = os.listdir(path)
#os.listdir() 方法用于返回指定的文件夹包含的文件或文件夹的名字的列表。
for file in files:
    print(file)
    if os.path.isfile(path+ "/"+file):
        #os.path.isfile(path) 判断路径是否为文件
        print('file'+'这是一个文件')
        filename,extension = os.path.splitext(file)
        #分割路径,返回路径名和文件扩展名的元组
        if extension == ".txt":
            print(filename+'这是一个文本文件')
        elif extension == ".xlsx":
            print(filename+'这是一个excel文件')
    if os.path.isdir(path + "/" +file):
        print(file+"是一个文件夹")

读取结果:

二、使用Python完整的获取所有文件及文件夹并读取相应的文件

在我们遍历文件夹的基础上,如何实现快速读取指定文件,提高工作效率?
只需要在上述代码的基础上,导入pandas包,read_excel_我们所需要的文件即可

import pandas as pd
import os 
path = './data'
def get_all_files(path):
    print('-'*25+'函数被调用'+'-'*25)
    files = os.listdir(path)
#os.listdir() 方法用于返回指定的文件夹包含的文件或文件夹的名字的列表。
    for file in files:
        if os.path.isfile(path+ "/"+file):
            #os.path.isfile(path) 判断路径是否为文件
            print('file'+">>>>>是文件")
            filename,extension = os.path.splitext(file)
            #分割路径,返回路径名和文件扩展名的元组
            if extension == ".txt":
                print(filename+"#####是文本文件#####")
                print("读取"+filename+"文件中的内容...........")
                data = pd.read_table(path+'/'+file)
                print(data)
            elif extension == ".xlsx":
                print(filename+'#####是Excel文件#####')
                print("读取"+filename+"文件中的内容...........")
                data = pd.read_excel(path+'/'+file)
                print(data)
            elif extension == ".csv":
                print(filename+'#####是csv文件#####')
                print("读取"+filename+"文件中的内容...........")
                data = pd.read_csv(path+'/'+file)
                print(data)
        if os.path.isdir(path + "/" +file):
            print(file+"¥¥¥¥¥¥¥是文件夹¥¥¥¥¥¥¥")
            get_all_files(path+'/'+file)
get_all_files(path)    

读取成功!

三、使用Python合并数据

在日常工作中我们有很多表格需要处理,如何批量的将很多个文件夹中的表格合并到一起?

重点:

DataFrame.append(*other*, *ignore_index=False*, *verify_integrity=False*, *sort=None*)

append的使用

  • other: 是要添加的数据,append很不挑食,这个other可以是dataframe,dict,Seris,list等等。
  • ignore_index: 参数为True时将在数据合并后,按照0,1,2,3....的顺序重新设置索引,忽略了旧索引。
  • verify_integrity:参数为True时,如果合并的数据与原数据包含索引相同的行,将报错。
path='./project_data'
 ## 声明一个空的DataFrame,用来做最终的数据合并
final_data = pd.DataFrame()
# 声明一个空的DataFrame,用来做最终的数据合并
final_data = pd.DataFrame()
 
def get_all_files(path):
    global final_data
    print("-"*20 + "函数被调用" + "-"*20)
    files = os.listdir(path)
    for file in files:
        if os.path.isfile(path + "/" +file):
            print(file+">>>>>是文件")
            filename,extension=os.path.splitext(file)
            # 判断是不是文本文件
            if extension == ".txt" :
                print(filename+"#####是文本文件#####")
                print("读取"+filename+"文件中的内容...........")
                data = pd.read_table(path+'/' +file)
                print(data)
            elif extension=='.xlsx':
                print(filename+"#####是Excel文件#####")
                print("读取"+filename+"文件中的内容...........")
                data = pd.read_excel(path+'/' +file)
                print(data)
            elif extension=='.csv':
                print(filename + "是csv文件,是本次需要处理的文件")
                # 获取文件内容
                file_data = pd.read_csv(path +'/'+file)
                final_data = final_data.append(file_data,ignore_index=True)
                #append描述:在列表ls最后(末尾)添加一个元素object
                print("《《《《合并"+filename+"文件数据》》》》")
                
        # 判断是不是文件夹
        elif os.path.isdir(path+'/'+file):
            print(file + "¥¥¥¥是文件夹¥¥¥¥¥¥")
            get_all_files(path + '/' + file)
get_all_files(path)
print("数据合并完成")

开始合并,我们来查看一下合并后的数据:

总共1000多万条数据,如果我们用Excel的话估计要很多时间将这么多表格合并,而且会很卡,

到此这篇关于Python遍历目录下文件、读取、千万条数据合并详情的文章就介绍到这了,更多相关Python遍历目录下的文件内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • python numpy实现多次循环读取文件 等间隔过滤数据示例

    numpy的np.fromfile会出现如下的问题,只能一次性读取文件的内容,不能追加读取,连续两次的np.fromfile读到的东西一样 如果数据文件太大(几个G或以上)不能一次性全读进去,需要追加读取 而我希望读到的donser1和donser2是连续的两段 (实际使用时,比如说读取的文件是二进制数据文件,每一块文件都包括包头+数据,希望将这两块分开获取,然后再做进一步处理) 代码: import numpy as np length=2500 plt_arr=np.linspace(0.0

  • python实现用类读取文件数据并计算矩形面积

    1.创建一个类Rectangle,已知a.b求面积,求三角形的面积 2.结合题目一,从题目一文件中读取数据,并采用类的方法,将计算的结果写在另一个文档中. (1)利用类进行计算一个矩形的面积,已经a.b边长. class Rectangle: '''这是关于矩形面积的计算公式,只用给出矩形的长和宽, 调用实例函数,就可以返回所需要的面积''' number=0 def __init__(self,a,b): # a.b类似C中的形参 或者叫作构造方法 self.a1=a # 将形参中的值传入到类

  • Python遍历目录下文件、读取、千万条数据合并详情

    目录 一.使用Python进行文件和文件夹的判断 二.使用Python完整的获取所有文件及文件夹并读取相应的文件 三.使用Python合并数据 append的使用 一.使用Python进行文件和文件夹的判断 递归 :主要目的就是遍历文件夹和文件 对文件夹和文件进行属性判断 首先对文件夹进行遍历,看文件夹里有什么样的文件,读取出文件夹中的所有文件 import os path= "./data" #路径 files = os.listdir(path) #os.listdir() 方法用

  • php遍历目录下文件并按修改时间排序操作示例

    本文实例讲述了php遍历目录下文件并按修改时间排序操作.分享给大家供大家参考,具体如下: php 遍历目录下文件方法 //遍历目录下文件方法 function printdir($dir) { $files = array(); //opendir() 打开目录句柄 if($handle = @opendir($dir)){ //readdir()从目录句柄中(resource,之前由opendir()打开)读取条目, // 如果没有则返回false while(($file = readdir

  • C++ 遍历目录下文件简单实现实例

    C++ 遍历目录下文件 function:遍历目录下所有文件,返回文件总数,子文件夹总数(修改一下可以获得全部文件名等). 实例代码: #include "stdlib.h" #include "direct.h" #include "string.h" #include "io.h" #include "stdio.h" #include "iostream" using namesp

  • python 遍历目录(包括子目录)下所有文件的实例

    如下所示: def list_all_files(rootdir): import os _files = [] list = os.listdir(rootdir) #列出文件夹下所有的目录与文件 for i in range(0,len(list)): path = os.path.join(rootdir,list[i]) if os.path.isdir(path): _files.extend(list_all_files(path)) if os.path.isfile(path):

  • python获取文件后缀名及批量更新目录下文件后缀名的方法

    本文实例讲述了python获取文件后缀名及批量更新目录下文件后缀名的方法.分享给大家供大家参考.具体实现方法如下: 1. 获取文件后缀名: 复制代码 代码如下: #!/usr/bin/python import os dict = {} for d, fd, fl in os.walk('/home/ahda/Program/'):         for f in fl:                 sufix = os.path.splitext(f)[1][1:]           

  • Python实现批量更换指定目录下文件扩展名的方法

    本文实例讲述了Python实现批量更换指定目录下文件扩展名的方法.分享给大家供大家参考,具体如下: #encoding=utf-8 #author: walker #date: 2013-12-06 #function: 深度遍历指定目录,更换指定扩展名 import os import os.path #读入指定目录并转换为绝对路径 rootdir = raw_input('root dir:\n') rootdir = os.path.abspath(rootdir) print('abso

  • python获取目录下所有文件的方法

    本文实例讲述了python获取目录下所有文件的方法.分享给大家供大家参考.具体分析如下: os.walk() 函数声明:walk(top,topdown=True,onerror=None) 1. 参数top表示需要遍历的目录树的路径 2. 参数topdown的默认值是"True",表示首先返回目录树下的文件,然后在遍历目录树的子目录.Topdown的值为"False"时,则表示先遍历目录树的子目录,返回子目录下的文件,最后返回根目录下的文件 3. 参数onerro

  • java读取resource目录下文件的方法示例

    本文主要介绍的是java读取resource目录下文件的方法,比如这是你的src目录的结构 ├── main │ ├── java │ │ └── com │ │ └── test │ │ └── core │ │ ├── bean │ │ ├── Test.java │ └── resources │ └── test │ ├── test.txt └── test └── java 我们希望在Test.java中读取test.txt文件中的内容,那么我们可以借助Guava库的Resource

  • python查找目录下指定扩展名的文件实例

    本文实例讲述了python查找目录下指定扩展名的文件.分享给大家供大家参考.具体如下: 这里使用python查找当前目录下的扩展名为.txt的文件 import os items = os.listdir(".") newlist = [] for names in items: if names.endswith(".txt"): newlist.append(names) print newlist 希望本文所述对大家的Python程序设计有所帮助.

  • python连接远程ftp服务器并列出目录下文件的方法

    本文实例讲述了python连接远程ftp服务器并列出目录下文件的方法.分享给大家供大家参考.具体如下: 这段python代码用到了pysftp模块,使用sftp协议,对数据进行加密传输 import pysftp srv = pysftp.Connection(host="your_FTP_server", username="your_username",password="your_password") # Get the directory

随机推荐