Pandas之read_csv()读取文件跳过报错行的解决

2025-04-05 23:06:37

读取文件时遇到和列数不对应的行，此时会报错。若报错行可以忽略，则添加以下参数:

样式：

pandas.read_csv(***,error_bad_lines=False)

pandas.read_csv(filePath) 方法来读取csv文件时，可能会出现这种错误：

ParserError：Error tokenizing data.C error:Expected 2 fields in line 407,saw 3.

是指在csv文件的第407行数据，期待2个字段，但在第407行实际发现了3个字段。

原因：header只有两个字段名，但数据的第407行却出现了3个字段（可能是该行数据包含了逗号，或者确实有三个部分），导致pandas不知道该如何处理。

解决办法：把第407行多出的字段删除，或者通过在read_csv方法中设置error_bad_lines=False来忽略这种错误：

改为

pandas.read_csv(filePath,error_bad_lines=False)

来忽略掉其中出现错乱(例如，由于逗号导致多出一列)的行。

KeyError错误：

报这种错是由于使用了DataFrame中没有的字段，例如id字段，原因可能是：

.csv文件的header部分没加逗号分割，此时可使用df.columns.values来查看df到底有哪些字段：

print(df.columns.values)

.在操作DataFrame的过程中丢掉了id字段的header，却没发现该字段已丢失。

例如：

df=df[df['id']!='null']#取得id字段不为null的行
df=df['id']#赋值后df为Series，表示df在id列的值，而不再是一个DataFrame,于是丢掉了id的头，此时若再使用df['id']将报错。

取列的值，与取列的区别：

df=df['id']#取id列的值，赋值后df为Series类型，可用print(type(df))来查看其类型
df=df[['id']]#只取df的id列作为一个新的DataFrame，赋值后df仍然是一个DataFrame
df=df[['id','age']]#取df的id和age列作为一个新的DataFrame，赋值后df仍然是一个DataFrame

过滤行

df=df[df['id']!='null']#过滤掉id字段取值为'null'的行

注意，此处的'null'是一个字符串，若df中某行id字段的值不是字符串型，或者为空，将报TypeError：invalid type comparison错，因为只有相同类型的值才能进行比较。

解决办法：如果不能保证id列都是string类型，则需要去掉该过滤条件。

补充知识：pandas 使用read_csv读取文件时产生错误：EOF inside string starting at line

解决方法：使用参数 quoting

df = pd.read_csv(csvfile, header = None, delimiter="\t", quoting=csv.QUOTE_NONE, encoding='utf-8')

以上这篇Pandas之read_csv()读取文件跳过报错行的解决就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持我们。

解决pandas read_csv 读取中文列标题文件报错的问题

从windows操作系统本地读取csv文件报错 data = pd.read_csv(path) Traceback (most recent call last): File "C:/Users/arron/PycharmProjects/ML/ML/test.py", line 45, in <module> data = pd.read_csv(path) File "C:\Users\arron\AppData\Local\Continuum\Anacon
解决pandas使用read_csv()读取文件遇到的问题

如下: 数据文件: 上海机场 (sh600009) 24.11 3.58 东风汽车 (sh600006) 74.25 1.74 中国国贸 (sh600007) 26.38 2.66 包钢股份 (sh600010) 61.01 2.35 武钢股份 (sh600005) 75.85 1.3 浦发银行 (sh600000) 6.65 0.96 在使用read_csv() API读取CSV文件时求取某一列数据比较大小时, df=pd.read_csv(output_file,encoding='gb23
pandas读取csv文件提示不存在的解决方法及原因分析

一般情况是数据文件没有在当前路径,那么它是无法读取数据的.另外,如果路径名包含中文它也是无法读取的. (1)可以选择: import os os.getcwd() 获得当前的工作路径,把你的数据文件放在此路径上就可以了,就可以直接使用pd.read_csv("./_.csv") (2)可以选择: 使用os.chdir(path),path是你的那个数据文件路径 (3)可以选择: 不更改路径,直接调用df=pd.read_csv(U"文件存储的盘(如C盘) :/文件夹/文件名.
Pandas之read_csv()读取文件跳过报错行的解决

读取文件时遇到和列数不对应的行,此时会报错.若报错行可以忽略,则添加以下参数: 样式: pandas.read_csv(***,error_bad_lines=False) pandas.read_csv(filePath) 方法来读取csv文件时,可能会出现这种错误: ParserError:Error tokenizing data.C error:Expected 2 fields in line 407,saw 3. 是指在csv文件的第407行数据,期待2个字段,但在第407行实际发现
pd.read_csv读取文件路径出现的问题解决

目录写在前面出现的问题解决问题用相对路径读取数据集完整的代码参考写在前面在用pd.read_csv读取数据集时,我有2个疑问?1是:写相对路径还是绝对路径.2是:相对路径,绝对路径怎么写.这篇文章就是解决以上两个问题.如果这个脚本只是在自己电脑上,都可以无所谓,但是如果别人也想用你的脚本,我认为相对路径还是比较好的,数据集和脚本一起拷贝给别人,如果环境没问题的话路径不用修改就可以直接运行,如果你用绝对路径的话,别人拿到之后还得自己修改路径. 出现的问题报错,这个路径没找到文件,
mysql 主从复制如何跳过报错

一.传统binlog主从复制,跳过报错方法 mysql> stop slave; mysql> set global sql_slave_skip_counter = 1; mysql> start slave; mysql> show slave status \G 二.GTID主从复制,跳过报错方法 mysql> stop slave: #先关闭slave复制: mysql> change master to ...省略... #配置主从复制: mysql>
el-upload多选文件上传报错解决方案

在element-ui中,el-upload可以进行文件多选操作. 在多选文件上传时,会循环调用上传方法.在第一次循环时,文件可以正常上传,第二次开始就会在 progress事件中报错: 尝试上传2个文件,在这里打印progress事件的参数: 会发现在第二次循环的时候,事件获取不到file,所以接下来的操作无法正常进行.如果不处理这个问题的话,上传方法依然可以使用,只不过最终传上去的只是第一个文件. 本人目前还不知道是什么原因造成了这个结果.但是经过查找相关问题找到了解决办法: 在进行文件多选
Vue3刷新页面报错404的解决方法

vue-router历史模式最近在学习Vue3的过程中遇到了一个问题,那就是在写代码的过程中,每当代码发生了变动,页面一刷新,原先的页面就会变成这个样子: 打开控制台一看: 这时候刷新.在浏览器地址栏直接输入地址也不管用. 每次写一点代码,都不能及时看到结果,需要从8080重新进入才可以,其中的崩溃可想而知. 此时判断应该是路由跳转的问题,于是来到router.js文件看一看: import { createRouter, createWebHistory } from 'vue-router
MySQL5.7 group by新特性报错1055的解决办法

项目中本来使用的是mysql5.6进行开发,切换到5.7之后,突然发现原来的一些sql运行都报错,错误编码1055,错误信息和sql_mode中的"only_full_group_by"有关,到网上看了原因,说是mysql5.7中only_full_group_by这个模式是默认开启的解决办法大致有两种: 一:在sql查询语句中不需要group by的字段上使用any_value()函数当然,这种对于已经开发了不少功能的项目不太合适,毕竟要把原来的sql都给修改一遍二:修改my.
Oracle+Mybatis的foreach insert批量插入报错的快速解决办法

最近做一个批量导入的需求,将多条记录批量插入数据库中. 解决思路:在程序中封装一个List集合对象,然后把该集合中的实体插入到数据库中,因为项目使用了MyBatis,所以打算使用MyBatis的foreach功能进行批量插入.期间遇到了"SQL 命令未正确结束 "的错误,最终解决,记录下来供以后查阅和学习. 首先,在网上参考了有关Mybatis的foreach insert的资料,具体如下: foreach的主要用在构建in条件中,它可以在SQL语句中进行迭代一个集合. foreach
nginx上传文件大小报错500的解决办法

nginx上传文件大小报错500的解决办法采用nginx作反向代理,出现了一个诡异的问题,小文件可以提交,大文件会报500内部错误.这个是什么原因导致的呢? 查wiki可知,上传文件大小相关的有三个配置 client_body_buffer_size 配置请求体缓存区大小, 不配的话, client_body_temp_path 设置临时文件存放路径.只有当上传的请求体超出缓存区大小时,才会写到临时文件中 client_max_body_size 设置上传文件的最大值所以查出来,问题出现的原
PHP 500报错的快速解决方法

1 先看nginx error.log 指定的错误日记文件路径找到这个日记文件看里面信息 2 再看 php-fpm.conf 里面指定的PHP错误日记的路径具体如下 php_flag[display_errors] = off php_admin_flag[log_errors] = on php_admin_value[error_log] = /data/logs/fpm-php.log 以上就是小编为大家带来的PHP 500报错的快速解决方法全部内容了,希望大家多多支持我们~

Pandas之read_csv()读取文件跳过报错行的解决

相关推荐

随机推荐