Python Pandas读写txt和csv文件的方法详解

2026-02-15 09:26:57

一、文本文件

文本文件，主要包括csv和txt两种等，相应接口为read_csv()和to_csv()，分别用于读写数据

1. read_csv()

格式代码：

pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, doublequote=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None）

常用参数：

filepath_or_buffer：文件路径
sep=','：默认以，为数据分隔符
skiprows：跳过前几行
nrows ：只读前几行
parse_dates = [‘col_name’]：指定某行读取为日期格式
index_col = [‘col_1’,‘col_2’]：读取指定的几列
error_bad_lines = False ：当某行数据有问题时，不报错，直接跳过，处理脏数据时使用
na_values = ‘NULL’：将NULL识别为空值
header = 0：表示以数据的第一行为列索引
encoding = “utf-8”：表明以utf-8为编码规则。
names = range(0,50))：表示以[0…49]为列索引的名字

（1）读取csv文件：

>>> import pandas as pd
>>>
>>> df = pd.read_csv(r"E:\Python学习\test.csv")
>>> print(df)
  name  age
0   小红   10
1   小明   20
2   小白   30
>>> print(type(df))
<class 'pandas.core.frame.DataFrame'>
>>> # 行和列
>>> print(df.shape)
(3, 2)
>>> print(list(df.columns))
['name', 'age']

（2）读取txt文件：

>>> df = pd.read_csv(r"E:\Python学习\test.txt")
>>> print(df)
   北京
0  上海
1  成都
2  深圳
3  广州
4  广东

skiprows

跳过前n行

>>> df = pd.read_csv(r"E:\Python学习\test.csv", skiprows=2)
>>> print(df)
   小明  20
0  小白  30

nrows

只读前几行

>>> df = pd.read_csv(r"E:\Python学习\test.csv", nrows =2)
>>> print(df)
  name  age
0   小红   10
1   小明   20

index_col

index_col = [‘col_1’,‘col_2’]：读取指定的几列。整数或者字符串或者整数/字符串列表。指定用作的行标签的列。

感觉有问题，和我想象中不同：

>>> df = pd.read_csv(r"E:\Python学习\test.csv", index_col  =['name'])
>>> print(df)
      age
name
小红     10
小明     20
小白     30
>>> df = pd.read_csv(r"E:\Python学习\test.csv", index_col=1)
>>> print(df)
    name
age
10    小红
20    小明
30    小白

names

names = range(0,50)：表示以[0…49]为列索引的名字

不与header=0共同使用：

>>> df = pd.read_csv(r"E:\Python学习\test.csv", names=['姓名', '年龄'])
>>> print(df)
     姓名   年龄
0  name  age
1    小红   10
2    小明   20
3    小白   30

与header=0共同使用：

>>> df = pd.read_csv(r"E:\Python学习\test.csv", header=0, names=['姓名', '年龄'])
>>> print(df)
   姓名  年龄
0  小红  10
1  小明  20
2  小白  30

2. to_csv()

格式代码：

pd.to_csv(path_or_buf,sep,na_rep,columns,header,index)

常用参数：

path_or_buf：str：放文件名、相对路径、文件流等。

sep：分隔符。与read_csv()中sep参数意思一样。

na_rep：将NaN转换为特定值。

columns：指定哪些列写进去。

header；默认header=0，如果没有表头，设置header=None。

index：关于索引的，默认True，写入索引。

（1）写入csv文件：

>>> import pandas as pd
>>>
>>> data = [{'A': 1, 'B': 2}, {'A': 3, 'B': 4, 'C': 5}]
>>> df = pd.DataFrame(data)
>>> print(df)
   A  B    C
0  1  2  NaN
1  3  4  5.0
>>> print(type(df))
<class 'pandas.core.frame.DataFrame'>
>>> df.to_csv('test1.csv')
>>>

可以看到生成了新文件：

我们读取看看：

>>> df1 = pd.read_csv(r"test1.csv", header=0, encoding="utf-8")
>>> print(df1)
   A  B    C
0  1  2  NaN
1  3  4  5.0

（2）写入txt文件：

>>> data = [{'A': 1, 'B': 2}, {'A': 3, 'B': 4, 'C': 5}]
>>> df = pd.DataFrame(data)
>>> df.to_csv('test1.txt')

生成新文件：

sep

设置分隔符

>>> data = [{'A': 1, 'B': 2}, {'A': 3, 'B': 4, 'C': 5}]
>>> df = pd.DataFrame(data)
>>> df.to_csv('test2.csv', sep=';') # 设置;号为分割符

可以看到分隔符为分号：

na_rep

na_rep：将NaN转换为特定值。

>>> data = [{'A': 1, 'B': 2}, {'A': 3, 'B': 4, 'C': 5}]
>>> df = pd.DataFrame(data)
>>> df.to_csv('test3.csv', na_rep='100') # 空值替换为100
>>>
>>> df1 = pd.read_csv('test3.csv')
>>> print(df1)
   Unnamed: 0  A  B      C
0           0  1  2  100.0
1           1  3  4    5.0

columns

columns：指定哪些列写进去。

>>> data = [{'A': 1, 'B': 2}, {'A': 3, 'B': 4, 'C': 5}]
>>> df = pd.DataFrame(data)
>>> df.to_csv('test4.csv', columns=['A','B']) # 只写入A、B列
>>>
>>> df1 = pd.read_csv('test4.csv')
>>> print(df1)
   Unnamed: 0  A  B
0           0  1  2
1           1  3  4

header

header；默认header=0，如果没有表头，设置header=None。

>>> data = [{'A': 1, 'B': 2}, {'A': 3, 'B': 4, 'C': 5}]
>>> df = pd.DataFrame(data)
>>> df.to_csv('test5.csv', header=None)
>>>
>>> df1 = pd.read_csv('test5.csv')
>>> print(df1)
   0  1  2  Unnamed: 3
0  1  3  4         5.0

index

index：关于索引的，默认True，写入索引

不保留索引：

>>> data = [{'A': 1, 'B': 2}, {'A': 3, 'B': 4, 'C': 5}]
>>> df = pd.DataFrame(data)
>>> df.to_csv('test6.csv', index=False)
>>>
>>> df1 = pd.read_csv('test6.csv')
>>> print(df1)
   A  B    C
0  1  2  NaN
1  3  4  5.0

以上就是Python Pandas读写txt和csv文件的方法详解的详细内容，更多关于Python Pandas读写txt csv的资料请关注我们其它相关文章！

python库sklearn常用操作

目录前言一.MinMaxScaler 前言 sklearn是python的重要机器学习库,其中封装了大量的机器学习算法,如:分类.回归.降维以及聚类:还包含了监督学习.非监督学习.数据变换三大模块.sklearn拥有完善的文档,使得它具有了上手容易的优势:并它内置了大量的数据集,节省了获取和整理数据集的时间.因而,使其成为了广泛应用的重要的机器学习库. sklearn是一个无论对于机器学习还是深度学习都必不可少的重要的库,里面包含了关于机器学习的几乎所有需要的功能,因为sklearn库的内容
Python sklearn转换器估计器和K-近邻算法

目录一.转换器和估计器 1. 转换器 2.估计器(sklearn机器学习算法的实现) 3.估计器工作流程二.K-近邻算法 1.K-近邻算法(KNN) 2. 定义 3. 距离公式三.电影类型分析 1 问题 2 K-近邻算法数据的特征工程处理四.K-近邻算法API 1.步骤 2.代码 3.结果及分析五.K-近邻总结一.转换器和估计器 1. 转换器想一下之前做的特征工程的步骤? 1.实例化 (实例化的是一个转换器类(Transformer)) 2.调用fit_transform(对于文档
python sklearn与pandas实现缺失值数据预处理流程详解

注:代码用 jupyter notebook跑的,分割线线上为代码,分割线下为运行结果 1.导入库生成缺失值通过pandas生成一个6行4列的矩阵,列名分别为'col1','col2','col3','col4',同时增加两个缺失值数据. import numpy as np import pandas as pd from sklearn.impute import SimpleImputer #生成缺失数据 df=pd.DataFrame(np.random.randn(6,4),colu
Python sklearn分类决策树方法详解

目录决策树模型决策树学习使用Scikit-learn进行决策树分类决策树模型决策树(decision tree)是一种基本的分类与回归方法. 分类决策树模型是一种描述对实例进行分类的树形结构.决策树由结点(node)和有向边(directed edge)组成.结点有两种类型:内部结点(internal node)和叶结点(leaf node).内部结点表示一个特征或属性,叶结点表示一个类. 用决策树分类,从根结点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子
python机器学习sklearn实现识别数字

目录简介数据集数据处理数据分离训练数据数据可视化完整代码简介本文主要简述如何通过sklearn模块来进行预测和学习,最后再以图表这种更加直观的方式展现出来数据集学习数据预测数据数据处理数据分离因为我们打开我们的的学习数据集,最后一项是我们的真实数值,看过小唐上一篇的人都知道,老规矩先进行拆分,前面的特征放一块,后面的真实值放一块,同时由于数据没有列名,我们选择使用iloc[]来实现分离 def shuju(tr_path,ts_path,sep='\t'): tra
一文搞懂Python Sklearn库使用

目录 1.LabelEncoder 2.OneHotEncoder 3.sklearn.model_selection.train_test_split随机划分训练集和测试集 4.pipeline 5 perdict 直接返回预测值 6 sklearn.metrics中的评估方法 7 GridSearchCV 8 StandardScaler 9 PolynomialFeatures 4.10+款机器学习算法对比 4.1 生成数据 4.2 八款主流机器学习模型 4.3 树模型 - 随机森林 4.
Python sklearn库三种常用编码格式实例

目录 OneHotEncoder独热编码实例 LabelEncoder标签编码实例 OrdinalEncoder特征编码实例 OneHotEncoder独热编码实例 class sklearn.preprocessing.OneHotEncoder(*, categories='auto', drop=None, sparse=True, dtype=<class 'numpy.float64'>, handle_unknown='error') 目的:将分类要素编码为one-hot数字数组
Python 第三方库 Pandas 数据分析教程

目录 Pandas导入 Pandas与numpy的比较 Pandas的Series类型 Pandas的Series类型的创建 Pandas的Series类型的基本操作 pandas的DataFrame类型 pandas的DataFrame类型创建 Pandas的Dataframe类型的基本操作 pandas索引操作 pandas重新索引 pandas删除索引 pandas数据运算算术运算 Pandas数据分析 pandas导入与导出数据导入数据导出数据 Pandas查看.检查数据 Pand
python pandas 数据排序的几种常用方法

前言: pandas中排序的几种常用方法,主要包括sort_index和sort_values. 基础数据: import pandas as pd import numpy as np data = { 'brand':['Python', 'C', 'C++', 'C#', 'Java'], 'B':[4,6,8,12,10], 'A':[10,2,5,20,16], 'D':[6,18,14,6,12], 'years':[4,1,1,30,30], 'C':[8,12,18,8,2] }
Python Pandas读写txt和csv文件的方法详解

目录一.文本文件 1. read_csv() 2. to_csv() 一.文本文件文本文件,主要包括csv和txt两种等,相应接口为read_csv()和to_csv(),分别用于读写数据 1. read_csv() 格式代码: pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False
C#实现读写CSV文件的方法详解

目录 CSV文件标准文件示例 RFC 4180 简化标准读写CSV文件使用CsvHelper 使用自定义方法总结项目中经常遇到CSV文件的读写需求,其中的难点主要是CSV文件的解析.本文会介绍CsvHelper.TextFieldParser.正则表达式三种解析CSV文件的方法,顺带也会介绍一下CSV文件的写方法. CSV文件标准在介绍CSV文件的读写方法前,我们需要了解一下CSV文件的格式. 文件示例一个简单的CSV文件: Test1,Test2,Test3,Test4,Test
C++ OpenCV读写XML或YAML文件的方法详解

目录前言 1.如何使用 1.1第一步:XML.YAML文件的打开 1.2 第二步:进行文件读写操作 1.3 第三步:vector(array)和map的输入和输出 1.4 第四步:文件关闭 2.代码展示 2.1 写文件 2.2 读文件 2.3 完整的示例代码前言本节我们将认识XML和YAML这两种文件类型. 所谓XML,即eXtensible Markup Language,翻译成中文为“可扩展标识语言”.首先,XML是一种元标记语言.所谓元标记,就是开发者可以根据自身需要定义自己的标记,
Java实现将类数据逐行写入CSV文件的方法详解

目录 1. 需求和思路 2. 现有方法 3. 代码 4. 参考 1. 需求和思路最近要用java制作一个数据集,每一行是一个样本,格式是csv.用了一下java类的相关概念,把csv文件里的每一行,即每一个样本视为一个类. 2. 现有方法目前已有的csv包如opencsv,可以支持字符串,也可以支持javabean(即java类).相关教程如下 Java OpenCSV|极客教程由于墙的原因,我maven老是下载不到opencsv的jar包,没办法我只能手写个平民版的 3. 代码自定义的
python用pandas读写和追加csv文件

目录 csv文件一.创建csv文件二.读写csv文件 1.基础python 2.pandas 三.追加csv文件 1.基础python 2.pandas 总结 csv文件 CSV文件是最常用的一个文件存储方式.逗号分隔值(Common-Separated Values,CSV)文件以纯文本形式存储表格数据(注:分隔字符也可以是其他字符).纯文本说明该文件是一个字符序列,不包含必须像二进制数字那样被解读的数据. CSV文件由任意数目记录组成,记录间以某种换行符分隔:每条记录由若干字段组成,字段
详解Python读取和写入操作CSV文件的方法

目录什么是 CSV 文件? 内置 CSV 库解析 CSV 文件读取 CSV 文件csv 将 CSV 文件读入字典csv 可选的 Python CSV reader参数使用 csv 写入文件从字典中写入 CSV 文件csv 使用 pandas 库解析 CSV 文件 pandas 读取 CSV 文件 pandas 写入 CSV 文件最流行的数据交换格式之一是 CSV 格式.是需要通过键盘和控制台以外的方式将信息输入和输出的程序,通过文本文件交换信息是在程序之间共享信息的常用方法. 这里带和
Python实现读取及写入csv文件的方法示例

本文实例讲述了Python实现读取及写入csv文件的方法.分享给大家供大家参考,具体如下: 新建csvData.csv文件,数据如下: 具体代码如下: # coding:utf-8 import csv # 读取csv文件方式1 csvFile = open("csvData.csv", "r") reader = csv.reader(csvFile) # 返回的是迭代类型 data = [] for item in reader: print(item) dat
python django下载大的csv文件实现方法分析

本文实例讲述了python django下载大的csv文件实现方法.分享给大家供大家参考,具体如下: 接手他人项目,第一个要优化的点是导出csv的功能,而且要支持比较多的数据导出,以前用php实现过,直接写入php://output就行了,django怎么做呢?如下: 借助django的StreamingHttpResponse和python的generator def outputCSV(rows, fname="output.csv", headers=None): def get
Python高效处理大文件的方法详解

目录开始处理文本串行处理多进程处理并行处理并行批量处理将文件分割成批运行并行批处理 tqdm 并发结论为了进行并行处理,我们将任务划分为子单元.它增加了程序处理的作业数量,减少了整体处理时间. 例如,如果你正在处理一个大的CSV文件,你想修改一个单列.我们将把数据以数组的形式输入函数,它将根据可用的进程数量,一次并行处理多个值.这些进程是基于你的处理器内核的数量. 在这篇文章中,我们将学习如何使用multiprocessing.joblib和tqdm Python包减少大文件
Python自动操作Excel文件的方法详解

目录工具读取Excel文件内容写入Excel文件内容 Excel文件样式调整设置表头的位置设置单元格的宽高总结工具 python3.7 Pycharm Excel xlwt&xlrd 读取Excel文件内容当前文件夹下有一个名为“股票数据.xlsx”的Excel文件,可以按照下列代码方式来操作它. import xlrd # 使用xlrd模块的open_workbook函数打开指定Excel文件并获得Book对象(工作簿) wb = xlrd.open_workbook('股票数

Python Pandas读写txt和csv文件的方法详解

目录

一、文本文件

1. read_csv()

2. to_csv()

相关推荐

随机推荐