使用 Python 处理3万多条数据只要几秒钟

2025-05-13 09:05:37

应用场景：工作中经常遇到大量的数据需要整合、去重、按照特定格式导出等情况。如果用 Excel 操作，不仅费时费力，还不准确，有么有更高效的解决方案呢？

本文以17个 txt 文本，3万多条数据为例，使用 Python 连接 MySQL 数据库，实现快速操作。

别人加班干的活，我的 Python 小助手几秒钟就搞定了！

本文主要包括以下三方面内容：

数据写入
数据去重
数据导出

将数据写入 MySQL 数据库

下图所示文件是本文的数据源：

我们的设想是：编写一个小程序，扔在这个文件夹里，双击后就可以自动读取每个 txt 文档中的数据，并写入数据库。

代码如下：

import pymysql
import os
conn = pymysql.connect(host='localhost', user='root', password='123456', db='qq', charset='utf8')
cur = conn.cursor()
cur.execute("CREATE TABLE qq ( id int(5) NOT NULL auto_increment, qq varchar(20)NOT NULL, PRIMARY KEY (id));")
conn.commit()
path = os.getcwd()
files = os.listdir(path)
i = 0
for file in files:
 f = open(file,'r',encoding = 'UTF-8')
 next(f)
 for line in f:
 i += 1
 #print(line)
 sql = "insert into qq(qq) values(%s);"
 cur.execute(sql,line)
 print("插入第", i, "条数据！")
 conn.commit()
 f.close()
cur.close()
conn.close()

运行效果：

重点代码解释：

这段代码用到了 pymysql 和 os 两个库。

pymysql：用来操作 MySQL 数据库；
os：用来遍历所在文件夹下的所有文件。

现将主要代码解释如下：

1、遍历任意文件夹下所有文件名称
程序写好后，使用 pyinstaller 打包成 exe 程序，并放在要操作的文件夹下面。

通过 path = os.getcwd() 命令，获取该 exe 文件所在目录。

通过 files = os.listdir(path) 命令，获取 exe 文件所在目录下的所有文件名称，并存入 files 列表中。

这样我们就获得了所有的 txt 文件名称，你可以任意命名你的 txt 文件名，程序都能读出来。

2、将数据写入数据库

（1）连接数据库，并在数据库中创建新表

A. 连接到我的 qq 数据库

conn = pymysql.connect(host='localhost', user='root', password='123456', db='qq', charset='utf8')

B. 创建新表 qq

在 qq 数据库中创建新表，表名称为 qq ，包含 2 个字段：id 字段为主键、自动递增；qq 字段为字符型，用于存储数据。

cur.execute("CREATE TABLE qq ( id int(5) NOT NULL auto_increment, qq varchar(20)NOT NULL, PRIMARY KEY (id))")

（2）将数据写入数据库

这里使用了两层循环：

for file in files:
 f = open(file,'r',encoding = 'UTF-8')
 next(f)
 for line in f:
 i += 1
 #print(line)
 sql = "insert into qq(qq) values(%s);"
 cur.execute(sql,line)
 print("插入第", i, "条数据！")
 conn.commit()
 f.close()

第一层循环是用来依次打开上述 17 个 txt 文件。

第二层循环是依次读取每个 txt 文件的每一行，并将改行数据插入数据库表 qq 的 qq字段。

至此就完成了数据的导入，总共32073条数据。

数据清洗

这里以去除重复值为例，简单介绍一下数据清洗。

1、创建一个新表，用来存储清洗后的数据

可以在 cmd 窗口下登陆 MySQL，打开 qq 数据库，执行下列操作：

CREATE TABLE qq_dist ( id int(5) NOT NULL auto_increment, qq varchar(20)NOT NULL, PRIMARY KEY (id));

这样就创建了新表 qq_dist ,用来存储清洗后的数据，便于后期调用。

2、清洗数据

登陆 MySQL 后，执行下列操作：

insert into qq_dis(qq) select distinct qq from qq;

将从 qq 表中查找出的不重复的 qq 字段内容，插入到 qq_dist 表中的 qq 字段。

将数据按照特定格式导出

案例：将清洗后的数据的第101-200行导出到新的 txt 文本中。

代码如下：

import pymysql
conn = pymysql.connect(host='localhost', user='root', password='123456', db='wxid', charset='utf8')
print("写入中，请等待……")
cur = conn.cursor()
sql = "select wxid from wd_dis limit 100,100;"
cur.execute(sql)
conn.commit()
alldata = cur.fetchall()
f = open('data101-200.txt','a')
i = 0
for data in alldata:
 i += 1
 f.write(data[0])
 f.flush()
f.close
cur.close()
conn.close()
print("写入完成,共写入{}条数据！".format(i))

重点代码解释：

1、 limit

MySQL 中 limit m,n 函数的含义是：从第 m+1 行开始读取 n 行。

所以，本案例中读取第101-200行，就是 limit 100,100

2、flush()

flush() 函数一定要加上，它可以将缓冲区的数据写入文件中。否则就会出现生成的 txt 文档为空白的错误。

总结

以上所述是小编给大家介绍的使用 Python 处理3万多条数据只要几秒钟，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对我们网站的支持！
如果你觉得本文对你有帮助，欢迎转载，烦请注明出处，谢谢！

在Python中利用Pandas库处理大数据的简单介绍

在数据分析领域,最热门的莫过于Python和R语言,此前有一篇文章<别老扯什么Hadoop了,你的数据根本不够大>指出:只有在超过5TB数据量的规模下,Hadoop才是一个合理的技术选择.这次拿到近亿条日志数据,千万级数据已经是关系型数据库的查询分析瓶颈,之前使用过Hadoop对大量文本进行分类,这次决定采用Python来处理数据: 硬件环境 CPU:3.5 GHz Intel Core i7 内存:32 GB HDDR 3 1600 MHz 硬
Python 处理数据的实例详解

Python 处理数据的实例详解最近用python(3.2的版本)写了根据特定规则,处理数据的一个小程序,用到了一些python常用的基础知识,在此总结一下: 1,python读文件 2,python写文件 3,python的流程控制 4,python的for循环 5,python的集合,或字符串里判断是否存在某个元素 6,python的逻辑或,逻辑与 7,python的正则过滤 8,python的字符串忽略空格,和以某个字符串开头和按某个字符拆分成list python的打开文件的模式: 关
python数据预处理之将类别数据转换为数值的方法

在进行python数据分析的时候,首先要进行数据预处理. 有时候不得不处理一些非数值类别的数据,嗯, 今天要说的就是面对这些数据该如何处理. 目前了解到的大概有三种方法: 1,通过LabelEncoder来进行快速的转换: 2,通过mapping方式,将类别映射为数值.不过这种方法适用范围有限: 3,通过get_dummies方法来转换. import pandas as pd from io import StringIO csv_data = '''A,B,C,D 1,2,3,4 5,6,,
python处理二进制数据的方法

本文实例讲述了python处理二进制数据的方法.分享给大家供大家参考.具体如下: #!/usr/env/env python #-*- coding: cp936 -*- ''''' add Head Infomation for pcm file ''' import sys import struct import os __author__ = 'bob_hu, hewitt924@gmail.com' __date__ = 'Dec 19,2011' __update__ = 'Dec
Python数据处理numpy.median的实例讲解

numpy模块下的median作用为: 计算沿指定轴的中位数返回数组元素的中位数其函数接口为: median(a, axis=None, out=None, overwrite_input=False, keepdims=False) 其中各参数为: a:输入的数组: axis:计算哪个轴上的中位数,比如输入是二维数组,那么axis=0对应行,axis=1对应列: out:用于放置求取中位数后的数组. 它必须具有与预期输出相同的形状和缓冲区长度: overwrite_input:一个bool
python数据预处理之数据标准化的几种处理方式

何为标准化: 在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析.数据标准化也就是统计数据的指数化.数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面.数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果.数据无量纲化处理主要解决数据的可比性. 几种标准化方法: 归一化Max-Min min-max标准化方
使用 Python 处理3万多条数据只要几秒钟

应用场景:工作中经常遇到大量的数据需要整合.去重.按照特定格式导出等情况.如果用 Excel 操作,不仅费时费力,还不准确,有么有更高效的解决方案呢? 本文以17个 txt 文本,3万多条数据为例,使用 Python 连接 MySQL 数据库,实现快速操作. 别人加班干的活,我的 Python 小助手几秒钟就搞定了! 本文主要包括以下三方面内容: 数据写入数据去重数据导出将数据写入 MySQL 数据库下图所示文件是本文的数据源: 我们的设想是:编写一个小程序,扔在这个文件夹里,双击后就可
Spring Boot使用线程池处理上万条数据插入功能

目录 # 前言 # 使用步骤 # 前言前两天做项目的时候,想提高一下插入表的性能优化,因为是两张表,先插旧的表,紧接着插新的表,一万多条数据就有点慢了后面就想到了线程池ThreadPoolExecutor,而用的是Spring Boot项目,可以用Spring提供的对ThreadPoolExecutor封装的线程池ThreadPoolTaskExecutor,直接使用注解启用 # 使用步骤先创建一个线程池的配置,让Spring Boot加载,用来定义如何创建一个ThreadPoolTask
Python采集猫眼两万条数据对《无名之辈》影评进行分析

一.说明本文主要讲述采集猫眼电影用户评论进行分析,相关爬虫采集程序可以爬取多个电影评论. 运行环境:Win10/Python3.5. 分析工具:jieba.wordcloud.pyecharts.matplotlib. 基本流程:下载内容 ---> 分析获取关键数据 ---> 保存本地文件 ---> 分析本地文件制作图表注意:本文所有图文和源码仅供学习,请勿他用,转发请注明出处! 本文主要参考:https://mp.weixin.qq.com/s/mTxxkwRZPgBiKC3Sv-
Python遍历目录下文件、读取、千万条数据合并详情

目录一.使用Python进行文件和文件夹的判断二.使用Python完整的获取所有文件及文件夹并读取相应的文件三.使用Python合并数据 append的使用一.使用Python进行文件和文件夹的判断递归 :主要目的就是遍历文件夹和文件对文件夹和文件进行属性判断首先对文件夹进行遍历,看文件夹里有什么样的文件,读取出文件夹中的所有文件 import os path= "./data" #路径 files = os.listdir(path) #os.listdir() 方法用
JavaScript如何一次性展示几万条数据

有一位同事跟大家说他在网上看到一道面试题:"如果后台传给前端几万条数据,前端怎么渲染到页面上?",如何回答? 于是办公室沸腾了, 同事们讨论开了, 你一言我一语说出自己的方案. 有的说直接循环遍历生成html插到页面上:有的说应该用分页来处理:还有的说这个面试官是个白痴, 哪有后台传几万条数据给前端这种情况的:我仔细思考了一下,先不论后端到底会不会白痴到传几万条数据给前端,假如真碰到这种情况,那么如果前端获取到数据以后, 直接将数据转换成html字符串,通过DOM操作插入到页面,势必导
Js表格万条数据瞬间加载实现代码

Js表格,万条数据瞬间加载在Ajax动态加载数据的实际应用中,大家都习惯了一种思维方式:一条数据创建一行. 于是如果数量大的时候,一次性要加载完数据的话,浏览器就会卡上半天受Flex的DataGrid控件的启发,在Flex的DataGrid控件中,展示数据的方法并不是有多少条数据就创建多少行,它最多只创建你在界面上所看到的十几二十行(假设为n行),如果数据多的话,在滚动过程中,会从数据中抽取你应该看到的这n行数据,重新展示在已经创建好的那n行控件中. 也就是说,Flex的DataGrid控件
88秒插入1000万条数据到MySQL数据库表的操作方法

我用到的数据库为,mysql数据库5.7版本的首先自己准备好数据库表其实我在插入1000万条数据的时候遇到了一些问题,现在先来解决他们,一开始我插入100万条数据时候报错,控制台的信息如下: com.mysql.jdbc.PacketTooBigException: Packet for query is too large (4232009 > 4194304). You can change this value on the server by setting the max_allo
python输入整条数据分割存入数组的方法

通过手动输入数据,将数据分成几部分存入数组中 import os import sys def test(): brick = raw_input("input:") brick = brick.split(",") print brick test() 输入的数据是用逗号分割开的,所以直接使用"split(",")"拆分. 以上这篇python输入整条数据分割存入数组的方法就是小编分享给大家的全部内容了,希望能给大家一个参考
教你如何6秒钟往MySQL插入100万条数据的实现

一.思路往MySQL中插入1000000条数据只花了6秒钟! 关键点: 1.使用PreparedStatement对象 2.rewriteBatchedStatements=true 开启批量插入,插入只执行一次,所有插入比较快. 二. 代码 package test0823.demo1; import java.sql.*; /** * @author : Bei-Zhen * @date : 2020-08-24 0:43 */ public class JDBC2 { //static
详解mybatis批量插入10万条数据的优化过程

数据库在使用mybatis插入大量数据的时候,为了提高效率,放弃循环插入,改为批量插入,mapper如下: package com.lcy.service.mapper; import com.lcy.service.pojo.TestVO; import org.apache.ibatis.annotations.Insert; import java.util.List; public interface TestMapper { @Insert("") Integer test

使用 Python 处理3万多条数据只要几秒钟

相关推荐

随机推荐