用于ETL的Python数据转换工具详解

2025-04-01 23:54:50

ETL的考虑

做数据仓库系统，ETL是关键的一环。说大了，ETL是数据整合解决方案，说小了，就是倒数据的工具。回忆一下工作这么些年来，处理数据迁移、转换的工作倒还真的不少。但是那些工作基本上是一次性工作或者很小数据量，使用access、DTS或是自己编个小程序搞定。可是在数据仓库系统中，ETL上升到了一定的理论高度，和原来小打小闹的工具使用不同了。究竟什么不同，从名字上就可以看到，人家已经将倒数据的过程分成3个步骤，E、T、L分别代表抽取、转换和装载。

其实ETL过程就是数据流动的过程，从不同的数据源流向不同的目标数据。但在数据仓库中，ETL有几个特点，一是数据同步，它不是一次性倒完数据就拉到，它是经常性的活动，按照固定周期运行的，甚至现在还有人提出了实时ETL的概念。二是数据量，一般都是巨大的，值得你将数据流动的过程拆分成E、T和L。
现在有很多成熟的工具提供ETL功能，例如datastage、powermart等，且不说他们的好坏。从应用角度来说，ETL的过程其实不是非常复杂，这些工具给数据仓库工程带来和很大的便利性，特别是开发的便利和维护的便利。但另一方面，开发人员容易迷失在这些工具中。举个例子，VB是一种非常简单的语言并且也是非常易用的编程工具，上手特别快，但是真正VB的高手有多少？微软设计的产品通常有个原则是"将使用者当作傻瓜"，在这个原则下，微软的东西确实非常好用，但是对于开发者，如果你自己也将自己当作傻瓜，那就真的傻了。ETL工具也是一样，这些工具为我们提供图形化界面，让我们将主要的精力放在规则上，以期提高开发效率。从使用效果来说，确实使用这些工具能够非常快速地构建一个job来处理某个数据，不过从整体来看，并不见得他的整体效率会高多少。问题主要不是出在工具上，而是在设计、开发人员上。他们迷失在工具中，没有去探求ETL的本质。

可以说这些工具应用了这么长时间，在这么多项目、环境中应用，它必然有它成功之处，它必定体现了ETL的本质。如果我们不透过表面这些工具的简单使用去看它背后蕴涵的思想，最终我们作出来的东西也就是一个个独立的job，将他们整合起来仍然有巨大的工作量。大家都知道“理论与实践相结合”，如果在一个领域有所超越，必须要在理论水平上达到一定的高度。

下面看下用于ETL的Python数据转换工具，具体内容如下所示：

前几天，我去Reddit询问是否应该将Python用于ETL相关的转换，并且压倒性的回答是"是"。

但是，尽管我的Redditor同事热心支持使用Python，但他们建议研究Pandas以外的库-出于对大型数据集Pandas性能的担忧。

经过研究，我发现了很多用于数据转换的Python库：有些改进了Pandas的性能，而另一些提供了自己的解决方案。

我找不到这些工具的完整列表，所以我想我可以使用所做的研究来编译一个工具-如果我错过了什么或弄错了什么，请告诉我!

Pandas

网站：https：//pandas.pydata.org/

总览

Pandas当然不需要介绍，但是我还是给它一个介绍。

Pandas在Python中增加了DataFrame的概念，并在数据科学界广泛用于分析和清理数据集。它作为ETL转换工具非常有用，因为它使操作数据非常容易和直观。

优点

广泛用于数据处理
简单直观的语法
与其他Python工具(包括可视化库)良好集成
支持常见的数据格式(从SQL数据库，CSV文件等读取)

缺点

由于它会将所有数据加载到内存中，因此无法扩展，并且对于非常大(大于内存)的数据集来说可能是一个错误的选择

进一步阅读

10分钟Pandas
Pandas机器学习的数据处理

Dask

网站：https：//dask.org/

总览

根据他们的网站，" Dask是用于Python并行计算的灵活库。"

从本质上讲，Dask扩展了诸如Pandas之类的通用接口，供在分布式环境中使用-例如，Dask DataFrame模仿了。

优点

可扩展性— Dask可以在本地计算机上运行并扩展到集群
能够处理内存不足的数据集
即使在相同的硬件上，使用相同的功能也可以提高性能(由于并行计算)
最少的代码更改即可从Pandas切换
旨在与其他Python库集成

缺点

除了并行性，还有其他方法可以提高Pandas的性能(通常更为显着)
如果您所做的计算量很小，则没有什么好处
Dask DataFrame中未实现某些功能

进一步阅读

Dask文档
为什么每个数据科学家都应该使用Dask

Modin

网站：https：//github.com/modin-project/modin

总览

Modin与Dask相似之处在于，它试图通过使用并行性并启用分布式DataFrames来提高Pandas的效率。与Dask不同，Modin基于Ray(任务并行执行框架)。

Modin优于Dask的主要好处是Modin可以自动处理跨计算机核心分发数据(无需进行配置)。

优点

可伸缩性— Ray比Modin提供的更多
完全相同的功能(即使在相同的硬件上)也可以提高性能
最小的代码更改即可从Pandas切换(更改import语句)
提供所有Pandas功能-比Dask更多的"嵌入式"解决方案

缺点

除了并行性，还有其他方法可以提高Pandas的性能(通常更为显着)
如果您所做的计算量很小，则没有什么好处

进一步阅读

Modin文档
Dask和Modin有什么区别?

Petl

网站：https：//petl.readthedocs.io/en/stable/

总览

petl包含了pandas的许多功能，但专为ETL设计，因此缺少额外的功能，例如用于分析的功能。 petl具有用于ETL的所有三个部分的工具，但本文仅专注于数据转换。

尽管petl提供了转换表的功能，但其他工具(例如pandas)似乎更广泛地用于转换和有据可查的文档，因此petl对此吸引力较小。

优点

最小化系统内存的使用，使其能够扩展到数百万行
对于在SQL数据库之间进行迁移很有用
轻巧高效

缺点

通过很大程度地减少对系统内存的使用，petl的执行速度会变慢-不建议在性能很重要的应用程序中使用
较少使用此列表中的其他解决方案进行数据处理

进一步阅读

使用Petl快速了解数据转换和迁移
petl转换文档 PySpark

网站：http：//spark.apache.org/

总览

Spark专为处理和分析大数据而设计，并提供多种语言的API。使用Spark的主要优点是Spark DataFrames使用分布式内存并利用延迟执行，因此它们可以使用集群处理更大的数据集，而Pandas之类的工具则无法实现。

如果要处理的数据非常大，并且数据操作的速度和大小很大，Spark是ETL的理想选择。

优点

可扩展性和对更大数据集的支持
就语法而言，Spark DataFrames与Pandas非常相似
通过Spark SQL使用SQL语法进行查询
与其他流行的ETL工具兼容，包括Pandas(您实际上可以将Spark DataFrame转换为Pandas DataFrame，从而使您可以使用各种其他库)
与Jupyter笔记本电脑兼容
内置对SQL，流和图形处理的支持

缺点

需要一个分布式文件系统，例如S3
使用CSV等数据格式会限制延迟执行，需要将数据转换为Parquet等其他格式
缺少对数据可视化工具(如Matplotlib和Seaborn)的直接支持，这两种方法都得到了Pandas的良好支持

进一步阅读

Python中的Apache Spark：新手指南
PySpark简介
PySpark文档(尤其是语法) 值得一提

尽管我希望这是一个完整的列表，但我不希望这篇文章过长!

确实有很多许多用于数据转换的Python工具，因此我包括了这一部分，至少是我错过的其他项目(我可能会在本文的第二部分中进一步探讨这些项目)。

bonobo https://www.bonobo-project.org/
bubbles http://bubbles.databrewery.org/
pygrametl http：//chrthomsen.github.io/pygrametl/
Apache Beam https：//beam.apache.org/

结论

我希望这份清单至少可以帮助您了解Python必须提供哪些工具来进行数据转换。在进行了这项研究之后，我相信Python是ETL的优秀选择-这些工具及其开发人员使它成为了一个了不起的平台。

到此这篇关于用于ETL的Python数据转换工具的文章就介绍到这了,更多相关Python数据转换工具内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

python数据预处理之将类别数据转换为数值的方法

在进行python数据分析的时候,首先要进行数据预处理. 有时候不得不处理一些非数值类别的数据,嗯, 今天要说的就是面对这些数据该如何处理. 目前了解到的大概有三种方法: 1,通过LabelEncoder来进行快速的转换: 2,通过mapping方式,将类别映射为数值.不过这种方法适用范围有限: 3,通过get_dummies方法来转换. import pandas as pd from io import StringIO csv_data = '''A,B,C,D 1,2,3,4 5,6,,
Python图片转换成矩阵,矩阵数据转换成图片的实例

如下所示: # coding=gbk from PIL import Image import numpy as np # import scipy def loadImage(): # 读取图片 im = Image.open("lena.jpg") # 显示图片 im.show() im = im.convert("L") data = im.getdata() data = np.matrix(data) # print data # 变换成512*512 d
python读取csv和txt数据转换成向量的实例

最近写程序需要从文件中读取数据,并把读取的数据转换成向量. 查阅资料之后找到了读取csv文件和txt文件两种方式,下面结合自己的实验过程,做简要记录,供大家参考: 1.读取csv文件的数据 import csv filtpath = "data_test.csv" with open(filtpath,'r') as csvfile: reader = csv.reader(csvfile) header = next(reader) data = [] for line in rea
利用python将json数据转换为csv格式的方法

假设.json文件中存储的数据为: {"type": "Point", "link": "http://www.dianping.com/newhotel/22416995", "coordinates": [116.37256372996957, 40.39798447055443], "category": "经济型", "name": &qu
python ETL工具 pyetl

pyetl是一个纯python开发的ETL框架, 相比sqoop, datax 之类的ETL工具,pyetl可以对每个字段添加udf函数,使得数据转换过程更加灵活,相比专业ETL工具pyetl更轻量,纯python代码操作,更加符合开发人员习惯安装 pip3 install pyetl 使用示例数据库表之间数据同步 from pyetl import Task, DatabaseReader, DatabaseWriter reader = DatabaseReader("sqlite://
使用python将mysql数据库的数据转换为json数据的方法

由于产品运营部需要采用第三方个推平台,来推送消息.如果手动一个个键入字段和字段值,容易出错,且非常繁琐,需要将mysql的数据转换为json数据,直接复制即可. 本文将涉及到如何使用Python访问Mysql数据库及读取获取数据(前提需要安装MySQLdb第三方库哦),以及如何将数据转换为json数据,最后保存成文件输出. 代码如下:注释比较详细了. # coding=utf-8 ''' Created on 2016-10-26 @author: Jennifer Project:读取mysq
用于ETL的Python数据转换工具详解

ETL的考虑做数据仓库系统,ETL是关键的一环.说大了,ETL是数据整合解决方案,说小了,就是倒数据的工具.回忆一下工作这么些年来,处理数据迁移.转换的工作倒还真的不少.但是那些工作基本上是一次性工作或者很小数据量,使用access.DTS或是自己编个小程序搞定.可是在数据仓库系统中,ETL上升到了一定的理论高度,和原来小打小闹的工具使用不同了.究竟什么不同,从名字上就可以看到,人家已经将倒数据的过程分成3个步骤,E.T.L分别代表抽取.转换和装载. 其实ETL过程就是数据流动的
Python之py2exe打包工具详解

下载Python对应版本的py2exe,使用这个工具可以将自己的程序打包成exe文件. 使用这个工具需要写一个用于打包的setup.py文件(名称可以自己定,不一定是setup.py),写好后在命令提示符界面cd到这个文件的目录,执行命令"python setup.py py2exe"即可打包完成. 下面是自己参考其他网友写的,可供参考: # _*_ coding: utf-8 _*_ import py2exe from distutils.core import setup inc
Python实现视频中添加音频工具详解

目录前言环境依赖主要代码前言本文提供在在无音频的视频中添加音频的python工具,附上代码. 环境依赖 ffmpeg环境安装,可以参考:windows ffmpeg安装部署 ffmpy安装: pip install ffmpy -i https://pypi.douban.com/simple 主要代码不废话,上代码. #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2021/12/5 1:49 # @Author :
Python3标准库之functools管理函数的工具详解

1. functools管理函数的工具 functools模块提供了一些工具来调整或扩展函数和其他callable对象,从而不必完全重写. 1.1 修饰符 functools模块提供的主要工具就是partial类,可以用来"包装"一个有默认参数的callable对象.得到的对象本身就是callable,可以把它看作是原来的函数.它与原函数的参数完全相同,调用时还可以提供额外的位置或命名函数.可以使用partial而不是lambda为函数提供默认参数,有些参数可以不指定. 1.1.1 部
5个主流的Java开源IDE工具详解

Java IDE工具提供了多种用户独特需求和个人偏好来创建编程环境的方法. Java框架能够简化程序员的工作.这些框架被设计和开发用于在任何服务器环境上运行任意应用程序;包括解析注释.扫描描述符.加载配置和在Java虚拟机(JVM)上启动实际服务方面的动态行为.控制这么大的范围需要更多的代码,使得减少内存占用或加速新应用程序的启动时间变得困难.无论如何,Java在当今使用的编程语言中始终排在前三名,在TIOBE索引中涉及700万到1000万的程序员和开发者. 因为Java如此的普及,意味着集成开
全网最详细Hutool工具详解

很多方法请看官网地址:hutool官网地址我们下载:https://www.jb51.net/softs/549331.html 简介 Hutool是一个小而全的Java工具类库,通过静态方法封装,降低相关API的学习成本,提高工作效率,使Java拥有函数式语言般的优雅,让Java语言也可以"甜甜的". Hutool中的工具方法来自每个用户的精雕细琢,它涵盖了Java开发底层代码中的方方面面,它既是大型项目开发中解决小问题的利器,也是小型项目中的效率担当: Hutool是项目中&qu
Python数据可视化详解

目录一.Matplotlib模块 1.绘制基本图表 1. 绘制柱形图 2. 绘制条形图 3. 绘制折线图 4. 绘制面积图 5. 绘制散点图 6. 绘制饼图和圆环图 2.图表的绘制和美化技巧 1. 在一张画布中绘制多个图表 2. 添加图表元素 3. 添加并设置网格线 4. 调整坐标轴的刻度范围 3.绘制高级图表 1. 绘制气泡图 2. 绘制组合图 3. 绘制直方图 4. 绘制雷达图 5. 绘制树状图 6. 绘制箱形图 7. 绘制玫瑰图二.pyecharts模块 1.图表配置项 2.绘制漏斗图
基于python爬虫数据处理(详解)

一.首先理解下面几个函数设置变量 length()函数 char_length() replace() 函数 max() 函数 1.1.设置变量 set @变量名=值 set @address='中国-山东省-聊城市-莘县'; select @address 1.2 .length()函数 char_length()函数区别 select length('a') ,char_length('a') ,length('中') ,char_length('中') 1.3. replace() 函数
python 全文检索引擎详解

python 全文检索引擎详解最近一直在探索着如何用Python实现像百度那样的关键词检索功能.说起关键词检索,我们会不由自主地联想到正则表达式.正则表达式是所有检索的基础,python中有个re类,是专门用于正则匹配.然而,光光是正则表达式是不能很好实现检索功能的. python有一个whoosh包,是专门用于全文搜索引擎. whoosh在国内使用的比较少,而它的性能还没有sphinx/coreseek成熟,不过不同于前者,这是一个纯python库,对python的爱好者更为方便使用.具体的
TF-IDF算法解析与Python实现方法详解

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术.比较容易理解的一个应用场景是当我们手头有一些文章时,我们希望计算机能够自动地进行关键词提取.而TF-IDF就是可以帮我们完成这项任务的一种统计方法.它能够用于评估一个词语对于一个文集或一个语料库中的其中一份文档的重要程度. 在一份给定的文件里,词频 (term frequency, T

用于ETL的Python数据转换工具详解

相关推荐

随机推荐