如何将一个CSV格式的文件分割成两个CSV文件
目录
- 将一个CSV格式的文件分割成两个CSV文件
- 定义split_csv函数
- 调用上述函数
- 将CSV文件以某列为条件分类切割
- 大概步骤
- 上代码
将一个CSV格式的文件分割成两个CSV文件
本项目可以按照比例将一个csv文件分割成两个csv文件,效果是:在C:\algo_file文件夹下,将该文件夹下的data.csv文件分成train.csv和vali.csv
完整代码:
定义split_csv函数
import csv import os def split_csv(path, total_len, per): # 如果train.csv和vali.csv存在就删除 if os.path.exists('C:\\algo_file\\train.csv'): os.remove('C:\\algo_file\\train.csv') if os.path.exists('C:\\algo_file\\vali.csv'): os.remove('C:\\algo_file\\vali.csv') with open(path, 'r', newline='') as file: csvreader = csv.reader(file) i = 0 for row in csvreader: if i < round(total_len * per/100): # train.csv存放路径 csv_path = os.path.join("C:\\algo_file", 'train.csv') print(csv_path) # 不存在此文件的时候,就创建 if not os.path.exists(csv_path): with open(csv_path, 'w', newline='') as file: csvwriter = csv.writer(file) csvwriter.writerow(row) i += 1 # 存在的时候就往里面添加 else: with open(csv_path, 'a', newline='') as file: csvwriter = csv.writer(file) csvwriter.writerow(row) i += 1 elif (i >= round(total_len * per/100)) and (i < total_len): # vali.csv存放路径 csv_path = os.path.join("C:\\algo_file", 'vali.csv') print(csv_path) # 不存在此文件的时候,就创建 if not os.path.exists(csv_path): with open(csv_path, 'w', newline='') as file: csvwriter = csv.writer(file) csvwriter.writerow(row) i += 1 # 存在的时候就往里面添加 else: with open(csv_path, 'a', newline='') as file: csvwriter = csv.writer(file) csvwriter.writerow(row) i += 1 else: break print("训练集和验证集分离成功") return
调用上述函数
if __name__ == '__main__': path = 'C:\\algo_file\\data.csv' total_len = len(open(path, 'r').readlines())# csv文件行数 per = 80 # 分割比例% split_csv(path, total_len, per)
按照训练集占80%(验证集20%)比例,对C:\algo_file文件夹下的data.csv进行分割,在该文件下得到train.csv 和 vali.csv。
最后
本项目只是以C:\algo_file文件夹为例,实际上data.csv所在路径,train.csv所在路径,vali.csv所在路径包括文件名都可以更改。
将CSV文件以某列为条件分类切割
项目中有一个数据文件数量庞大,一个文件中按照年月日分成几十万条数据,想试试能不能用python把它简单切割一下,按照日期分类切成小的csv文件。
于是在网上找了很多资料,结合自己的一些修改,整理了一下,方便以后再用。
大概步骤
1、读取文件
2、找出需要分类的列
3、将此列中重复的内容删除,每类剩余一条
4、把该列所有符合某一类的内容存入一个csv文件中
上代码
import pandas as pd # 读取文件数据 df=pd.read_csv('D:\\接收的文件\\lqf.csv', sep=',',engine='python',header=[0]) # 列csv文件中所有列 df.columns = ['year', 'date', 'statefips', 'countyfips', 'ctfips', 'latitude', 'longitude', 'DS_PM_pred', 'DS_PM_stdd'] # 删除date列中的重复项,也就是说剩下的date都是已经分好的类别 date_cate = df.drop_duplicates(subset=['date']) print(date_cate.date) print(range(len(date_cate))) # date中的所有类,也就是文件数 for name in date_cate.date: print(name) # 当date为某一个类时,存入一个小的csv文件中,文件名为类名 df[df.date == name].to_csv("D:\\接收的文件\\data\\"+u"%s" %name+".csv")
header=[0] #代表第一行为表头不计入其中,可根据表格修改。
!!!!!!(2)!!!!!!遍历文件夹中所有的文件然后进行切割,没啥用,自己做个存档而已 ↓↓↓↓↓
import pandas as pd import os j = 347 for info in os.listdir('D:\\接收的文件\year_02'): domain = os.path.abspath(r'D:\\接收的文件\year_02') # 获取文件夹的路径 info = os.path.join(domain, info) # 将路径与文件名结合起来就是每个文件的完整路径 # 读取文件数据 df = pd.read_csv(info, sep=',', engine='python', header=[0]) # 列csv文件中所有列 df.columns = ['year', 'date', 'statefips', 'countyfips', 'ctfips', 'latitude', 'longitude', 'DS_PM_pred', 'DS_PM_stdd'] grouped = df.groupby('date') # delete duplicated data ind_frame = df.drop_duplicates(subset=['date']) # print(ind_frame.date) # print(range(len(ind_frame))) for name in ind_frame.date: # print(name) j += 1 print("已经扫描到第" + '{}'.format(j)+'个文件') df[df.date == name].to_csv("D:\\接收的文件\\data2\\" + u"%s" %name+".csv")
以上为个人经验,希望能给大家一个参考,也希望大家多多支持我们。
赞 (0)