解决python 使用openpyxl读写大文件的坑
由于需要处理xlsx类型的文件,我使用了openpyxl来处理,然而文件比较大,大约有60多MB。读文件的时候虽然慢了一点,但还是能够读出来,但是当我想写入时却报错了。
显示设备没有多余的空间,百度了一下,发现有不少关于openpyxl读写大文件的问题。总结来看,解决方案主要有以下两种,当然,我两种都用上了。
手动释放内存
del wb, ws gc.collect()
这一招还算有用,在读完文件后可以看到内存占用明显下降了一点。
安装lxml
使用命令·pip install lxml安装依赖
这个依赖并非必须安装的依赖,但是可以使openpyxl流式处理数据。
总之使用了以上两种方案后,终于可以成功处理数据了。
补充:openpyxl读取大文件的若干问题
需要编写一个EXCEL文件对比工具
excel文件通常8MB,300张左右的表,每张表实际范围为ZZ500.
使用openpyxl对表格进行遍历,完成两个表之间的对比,找出公式不相同的单元格编程中遇到若干问题
1、读取时报错,错误代码忘记了,原因是通过数组的方式读取了一个不存在的数值
如 SS['AA'],这个数值没有定义,因此报错(PHP直接返回空值),使用SS.get('AA',null)进行修改
D:\Python34\Lib\site-packages\openpyxl\reader\style.py
164: format_code = builtin_formats.get(numFmtId,'General')
2、读取时内存占用过大
基本就是内存占用了2G以上以后,程序就不动了,原因是某些表格的表格范围识别的非常大,最大可为ZZ65535
通过研究,代码进行了如下修改
1:使用X64版本,X64版本在运行时,可以运行4G以内内存占用的程序,比2G大一倍,能够完成大部分表格的读取,如ZZ5000,但是遇到ZZ65535范围的表格,内存占用达到了4G+,也会导致程序停止运行.
2:限制最大单元格遍历范围,最大限制为ZZ5000,能够有效降低内存占用
3:定时重新读取EXCEL文件(如每对比30张表),释放内存,(Python内存释放真的很痛苦,全部是指针引用,A=B,DEL A;是不会释放空间的,要DEL B才行).
4:虽然openpyxl读取文件时有个只读模式(性能模式),但是速度实在是太慢了.
通过代码修改,现在完成文件对比所用的内存通常在2G以内
以上为个人经验,希望能给大家一个参考,也希望大家多多支持我们。如有错误或未考虑完全的地方,望不吝赐教。
相关推荐
-
python openpyxl 带格式复制表格的实现
有合并单元格的,先把合并单元格复制过去,合并单元格用wm=list(zip(wbsheet.merged_cells))得出合并单元格列表,把其中的(<CellRange A1:A4>,) 替换成为A1:A4格式 再从新表中合并单元格 再用.has_style: #拷贝格式 测试是否有格式,再复制格式和数据 其中: font(字体类):字号.字体颜色.下划线等 fill(填充类):颜色等 border(边框类):设置单元格边框 alignment(位置类):对齐方式 number_format
-
python中openpyxl和xlsxwriter对Excel的操作方法
前几天,项目中有个小需求:提供Excel的上传下载功能,使用模块:openpyxl 和 xlsxwriter,这里简单记录一下. 1.简介 Python中操作Excel的库非常多,为开发者提供了多种选择,如:xlrd. xlwt.xlutils.xlwings.pandas. win32com.openpyxl.xlsxwriter等等. 其中: 前三个一般混合使用,对Excel读写操作,适合旧版Excel,仅支持 xls 文件: win32com 库功能丰富,性能强大,适用于Windows:
-
详解Python openpyxl库的基本应用
1.导入文件 wb(可自定义) = openpyxl.load_workbook(#输入文件位置#) 2.转换为可处理的对象 sheet(可自定义)= wb['表格中对应的那一张的名称'] 3.sheet.cell(row=i, column=j) .value 可以显示对应单元格的值 4. wb.save['位置'] 保存表格 ''' # Created by Hailong Liu # for work # 2020.11.21 ''' import openpyxl #导入表格 w
-
Python openpyxl 无法保存文件的解决方案
使用openpyxl保存文件的时候,出现最下面异常,查看openpyxl 的版本是2.5.14, 把openpyxl降级就可以解决此问题. [root@billig mytest]# pip install openpyxl==2.5.11 DEPRECATION: Python 2.7 will reach the end of its life on January 1st, 2020. Please upgrade your Python as Python 2.7 won't be ma
-
详解Python中openpyxl模块基本用法
Python操作EXCEL库的简介 1.1 Python官方库操作excel Python官方库一般使用xlrd库来读取Excel文件,使用xlwt库来生成Excel文件,使用xlutils库复制和修改Excel文件,这三个库只支持到Excel2003. 1.2 第三方库openpyxl介绍 第三方库openpyxl(可读写excel表),专门处理Excel2007及以上版本产生的xlsx文件,xls和xlsx之间转换容易. 注意:如果文字编码是"gb2312" 读取后就会显示乱码,请
-
python openpyxl筛选某些列的操作
由于要复制excel 的某些单元格格式,需要对合并的单元格选出符合条件的 如下例是小于15的保留 然后在新表单中 wbsheet_new.merge_cells(cell2) wbsheet_new为新表单,cell2为筛选后保留的单元格,表达为I24:J24,K24:L24这样的格式 先正则筛选,筛选的结果为[('AO', 'AP')]这种list包含元组的表达方式,再用result[0][0]提取出第一个元素, 如果大于15列 column_index_from_string(result[
-
python openpyxl模块的使用详解
Python_Openpyxl 1. 安装 pip install openpyxl 2. 打开文件 ① 创建 from openpyxl import Workbook # 实例化 wb = Workbook() # 激活 worksheet ws = wb.active ② 打开已有 >>> from openpyxl import load_workbook >>> wb2 = load_workbook('文件名称.xlsx') 3. 储存数据 # 方式一:数据
-
python 使用openpyxl读取excel数据
openpyxl介绍 openpyxl是一个开源项目,它是一个用于读取/写入Excel 2010文档(如xlsx .xlsm .xltx .xltm文件 )的Python库,如果要处理更早格式的Excel文档(xls),需要用到其它库(如:xlrd.xlwt等),这是openpyxl比较其他模块的不足之处.openpyxl是一款比较综合的工具,不仅能够同时读取和修改Excel文档,而且可以对Excel文件内单元格进行详细设置,包括单元格样式等内容,甚至还支持图表插入.打印设置等内容. p
-
解决python 使用openpyxl读写大文件的坑
由于需要处理xlsx类型的文件,我使用了openpyxl来处理,然而文件比较大,大约有60多MB.读文件的时候虽然慢了一点,但还是能够读出来,但是当我想写入时却报错了. 显示设备没有多余的空间,百度了一下,发现有不少关于openpyxl读写大文件的问题.总结来看,解决方案主要有以下两种,当然,我两种都用上了. 手动释放内存 del wb, ws gc.collect() 这一招还算有用,在读完文件后可以看到内存占用明显下降了一点. 安装lxml 使用命令·pip install lxml安装依赖
-
Python使用openpyxl读写excel文件的方法
这是一个第三方库,可以处理xlsx格式的Excel文件.pip install openpyxl安装.如果使用Aanconda,应该自带了. 读取Excel文件 需要导入相关函数. from openpyxl import load_workbook # 默认可读写,若有需要可以指定write_only和read_only为True wb = load_workbook('mainbuilding33.xlsx') 默认打开的文件为可读写,若有需要可以指定参数read_only为True. 获取
-
Python实现的读写json文件功能示例
本文实例讲述了Python实现的读写json文件功能.分享给大家供大家参考,具体如下: 相比java,python对json文件的处理就简单很多.java操作json文件的话需要引用jar包及相关依赖包,想用java操作json的同学可以去百度,这里就不赘述了. 首先说读json文件 在进行json操作之前,首先要了解json的格式,分辨json文件. json文件格式一般有两种: 第一种:每行一个json类似于以下这种形式: ["name":"Tony",&quo
-
Python3利用openpyxl读写Excel文件的方法实例
前言 Python中常用的操作Excel的三方包有xlrd,xlwt和openpyxl等,xlrd支持读取.xls和.xlsx格式的Excel文件,只支持读取,不支持写入.xlwt只支持写入.xls格式的文件,不支持读取. openpyxl不支持.xls格式,但是支持.xlsx格式的读取写入,并且支持写入公式等. 原始数据文件apis.xlsx内容: name method url data json result get接口 get https://httpbin.org/get?a=1&b=
-
Python实现模拟分割大文件及多线程处理的方法
本文实例讲述了Python实现模拟分割大文件及多线程处理的方法.分享给大家供大家参考,具体如下: #!/usr/bin/env python #--*-- coding:utf-8 --*-- from random import randint from time import ctime from time import sleep import queue import threading class MyTask(object): """具体的任务类"&qu
-
python通过openpyxl生成Excel文件的方法
本文实例讲述了python通过openpyxl生成Excel文件的方法.分享给大家供大家参考.具体如下: 使用前请先安装openpyxl: easy_install openpyxl 通过这个模块可以很方便的导出数据到Excel from openpyxl.workbook import Workbook from openpyxl.writer.excel import ExcelWriter from openpyxl.cell import get_column_letter from o
-
几分钟搞懂c#之FileStream对象读写大文件(推荐)
还是一样,我先上代码,但是为了你们测试结果和我一样,必须先有准备工作,否则会找不到目录或者文件就没有效果: 既然是读取大文件,那么这个文本必须存在 现在来看目标目录 其实这里的文本文件可以删除,因为我们写入文本数据的时候的模式是当没有找到文件就创建新的. 下面上的上代码 "` using System; using System.Collections.Generic; using System.IO; using System.Reflection; using System.Text; na
-
C#利用缓存分块读写大文件
C#利用缓存分块读写大文件,供大家参考,具体内容如下 在日常生活中,可能会遇到大文件的读取,不论是什么格式,按照储存文件的格式读取大文件,就会在Buffer中看到相关的文件头合内容, 以一次.txt文件存取为例. using System.IO; 首先创建demo文件,此处文件大小没关系,只是演示 private void button2_Click(object sender, EventArgs e) { using (FileStream fsWrite = new FileStream(
-
解决Python中pandas读取*.csv文件出现编码问题
1.问题 在使用Python中pandas读取csv文件时,由于文件编码格式出现以下问题: Traceback (most recent call last): File "pandas\_libs\parsers.pyx", line 1134, in pandas._libs.parsers.TextReader._convert_tokens File "pandas\_libs\parsers.pyx", line 1240, in pandas._libs
-
解决python xlrd无法读取excel文件的问题
读取文件时报错: xlrd.biffh.XLRDError: Unsupported format, or corrupt file: Expected BOF record; found '<?xml' 该xls文件在打开时确实会警告该文件与扩展名格式不一致.用文本编辑器打开该xls文件查看,发现确实不是xls文件,而是xml文件被保存为了xls文件. 解决办法:将文件后缀名改为.xml,作为xml文件读入. 改名代码: import os os.rename(u"D:\PycharmP
随机推荐
- 用Net User命令恢复系统登陆用户密码
- C++类模板与模板类深入详解
- js Canvas绘制圆形时钟教程
- 关于.NET/C#/WCF/WPF 打造IP网络智能视频监控系统的介绍
- thinkphp隐藏index.php/home并允许访问其他模块的实现方法
- Python轻量级ORM框架Peewee访问sqlite数据库的方法详解
- 对于ASP编码问题的深入研究与最终解决方案
- javascript dom操作之cloneNode文本节点克隆使用技巧
- 远程连接mysql数据库注意事项记录(远程连接慢skip-name-resolve)
- 区分IE6,IE7,firefox的CSS hack
- 利用纯Vue.js构建Bootstrap组件
- 一个不错的仿携程自定义数据下拉选择select
- jQuery表格列宽可拖拽改变且兼容firfox
- jquery删除指定的html标签并保留标签内文本内容的方法
- js获取当前select 元素值的代码
- js判读浏览器是否支持html5的canvas的代码
- [推荐]Win2003 服务器的详细架设
- 学习制作MVC4分页控件(上)
- C#使用dir命令实现文件搜索功能示例
- 浅谈PHP的数据库接口和技术