kettle在windows上安装配置与实践案例

2025-06-04 23:45:54

第1章 kettle概述

1.1 什么是kettle

Kettle是一款开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。

1.2 Kettle核心知识点

1.2.1 Kettle工程存储方式

1) 以XML形式存储

2) 以资源库方式存储(数据库资源库和文件资源库)

1.2.2 Kettle的两种设计

简述：Transformation（转换）：完成针对数据的基础转换。

Job（作业）：完成整个工作流的控制。

区别：（1）作业是步骤流，转换是数据流，这是作业和转换的最大区别

（2）作业的每一个步骤，必须等到前面的步骤都跑完了，后面的步骤才会执行；而转换会一次性把所有控件全部先启动（一个空间对应启动一个线程），然后数据流会从第一个控件开始，一条记录，一条记录地流向最后的控件。

1.2.3 Kettle的组成

勺子（spoon.bat/spoon.sh）：是一个图形化的界面，可以让我们用图形化的方式开发转换和作业。Windows选择spoon.bat；Linux选择spoon.sh
煎锅（pan.bat/pan.sh）：利用pan可以用命令行的形式调用Trans
厨房（kitchen.bat/kitchen.sh）：利用kitchen可以使用命令调用Job
菜单（carte.bat/carte.sh）：carte是一个轻量级的web容器，用于建立专用、远程的ETL Server

1.3 kettle特点

免费开源：基于Java的免费开源的软件，对商业用户也没有限制

易配置：可以在window、Linux、unix上运行，绿色无需安装，数据抽取高效稳定

不同数据库：ETL工具集，它允许你管理来自不同数据库的数据

两种脚本文件：transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制

图形化界面设计：通过图形化设计实现做什么业务，无需写代码去实现

定时功能：在job下的start模块，有一个定时功能，可以每日、每周等方式进行定时。

第2章 kettle安装部署和使用

2.1 kettle安装地址

官网地址

Home - Hitachi Vantara

下载地址

https://sourceforge.net/projects/pentaho/files/Data%20Integration/

kettle各版本国内镜像下载地址：http://mirror.bit.edu.cn/pentaho/（下载速度相对快一些）

2.2 Windows下安装使用

2.2.1 概述

在实际企业开发中，都是在本地环境下进行kettle的job和Transformation开发的，可以在本地运行，也可以连接远程机器运行

2.2.2 安装

1) 安装jdk

2) 下载kettle压缩包，因kettle为绿色软件，解压缩到任意本地路径即可

3) 双击Spoon.bat，启动图形化界面工具，就可以直接使用了

2.2.3 案例

1) 案例一把stu1的数据按id同步到stu2，stu2有相同id则更新数据

(1)在mysql中创建两张表

mysql> create database kettle;
mysql> use kettle;
mysql> create table stu1(id int,name varchar(20),age int);
mysql> create table stu2(id int,name varchar(20));

(2)往两张表中插入一些数据

mysql> insert into stu1 values(1001,'zhangsan',20),(1002,'lisi',18), (1003,'wangwu',23);
mysql> insert into stu2 values(1001,'wukong');

(3)在kettle中新建转换

(4)分别在输入和输出中拉出表输入和插入/更新

(5)双击表输入对象，填写相关配置，测试是否成功

(6)双击更新/插入对象，填写相关配置

编辑映射，添加需要的字段，因为表stu2中没有age，所以不需要Add

(7)保存转换，启动运行，去mysql表查看结果

注意：如果需要连接mysql数据库，需要要先将mysql的连接驱动包复制到kettle的根目录下的lib目录中，否则会报错找不到驱动。

2) 案例2：使用作业执行上述转换，并且额外在表stu2中添加一条数据

(1)新建一个作业

(2) 按图示拉取组件

(3)双击Start编辑Start

(4)双击转换，选择案例1保存的文件

(5)双击SQL，编辑SQL语句

(6)保存执行

运行之前，查看数据：

运行之后查看结果：会发现除了刚才我们写的，insert语句之外，stu1表中的id为1004的也插入到stu2中了，因为我们执行了stu1tostu2.ktr转换。

注：转换和作业的后缀不同

3）案例3：将hive表的数据输出到hdfs

(1)因为涉及到hive和hbase的读写，需要修改相关配置文件。

修改解压目录下的data-integration\plugins\pentaho-big-data-plugin下的plugin.properties，设置active.hadoop.configuration=hdp26，并将如下配置文件从集群上拷贝到data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp26下

注意：以上操作完，需要重启kettle才能生效

(2)启动hdfs，yarn，zookeeper，hbase集群的所有进程，启动hiveserver2服务

[root@node4 hadoop-2.6.4]# sbin/start-dfs.sh

[root@node4 hadoop-2.6.4]# sbin/start-yarn.sh

三台服务器分别开启HBase前启动Zookeeper

[root@node4 hadoop-2.6.4]# zkServer.sh start

[root@node5 hadoop-2.6.4]# zkServer.sh start

[root@node6 hadoop-2.6.4]# zkServer.sh start

开启hbase

[root@node4 hbase-1.2.3]# bin/start-hbase.sh

开启hive2

[root@node4 ~]# hiveserver2

(3)进入beeline，查看10000端口开启情况

[root@node4 ~]# beeline(回车)

Beeline version 2.1.0 by Apache Hive

beeline> !connect jdbc:hive2://node4:10000

Connecting to jdbc:hive2://node4:10000

Enter username for jdbc:hive2://node4:10000: root(输入用户名，回车)

Enter password for jdbc:hive2://node4:10000: ******(输入密码，回车)

SLF4J: Class path contains multiple SLF4J bindings.

SLF4J: Found binding in [jar:file:/opt/module/hive/apache-hive-2.1.0-bin/lib/hive-jdbc-2.1.0-standalone.jar!/org/slf4j/impl/StaticLoggerBinder.class]

SLF4J: Found binding in [jar:file:/opt/module/hadoop/hadoop-2.6.4/share/hadoop/common/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]

SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.

SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]

Connected to: Apache Hive (version 2.1.0)

Driver: Hive JDBC (version 2.1.0)

20/05/23 20:05:58 [main]: WARN jdbc.HiveConnection: Request to set autoCommit to false; Hive does not support autoCommit=false.

Transaction isolation: TRANSACTION_REPEATABLE_READ

0: jdbc:hive2://node4:10000>（到了这里说明成功开启10000端口）

(4)创建两张表dept和emp

CREATE TABLE dept(deptno int, dname string,loc string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t';

CREATE TABLE emp(

empno int,

ename string,

job string,

mgr int,

hiredate string,

sal double,

comm int,

deptno int)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\t';

(5)插入数据

insert into dept values(10,'accounting','NEW YORK'),(20,'RESEARCH','DALLAS'),(30,'SALES','CHICAGO'),(40,'OPERATIONS','BOSTON');

insert into emp values

(7369,'SMITH','CLERK',7902,'1980-12-17',800,NULL,20),

(7499,'ALLEN','SALESMAN',7698,'1980-12-17',1600,300,30),

(7521,'WARD','SALESMAN',7698,'1980-12-17',1250,500,30),

(7566,'JONES','MANAGER',7839,'1980-12-17',2975,NULL,20);

(6)按下图建立流程图

(7)设置表输入，连接hive

表输入1

表输入2

(8)设置排序属性

(9)设置连接属性

(10)设置字段选择

“选择和修改”、“元数据”什么都不操作即可，只操作“移除”。如果操作了“元数据”，那么要注意和“移除”比较一下，字段是否一致，不然会报错。

(11)设置文件输出

跟前端页面一致

(12)保存并运行查看hdfs

我们下载下来看一下：

4)案例4：读取hdfs文件并将sal大于1000的数据保存到hbase中

(1) 在HBase中创建一张表用于存放数据

[root@node4 ~]# hbase shell

hbase(main):002:0> create 'people','info'

(2)按下图建立流程图

(3)设置文件输入，连接hdfs

(4)设置过滤记录

(5)设置HBase output

注意：若报错没有权限往hdfs写文件，在Spoon.bat中第119行添加参数

"-DHADOOP_USER_NAME=node4" "-Dfile.encoding=UTF-8"

(6) 保持并运行，查看hbase

2.3 创建资源库

2.3.1 数据库资源库

数据库资源库是将作业和转换相关的信息存储在数据库中，执行的时候直接去数据库读取信息，很容易跨平台使用

1)点击右上角connect，选择Other Resporitory

2) 选择Database Repository

3) 建立新连接

4) 填好之后，点击finish，会在指定的库中创建很多表，至此数据库资源库创建完成

5) 连接资源库

默认账号密码为admin

6) 将之前做过的转换导入资源库

(1)选择从xml文件导入

(2)随便选择一个转换

(3)点击保存，选择存储位置及文件名

(4)打开资源库查看保存结果

2.3.2 文件资源库

将作业和转换相关的信息存储在指定的目录中，其实和XML的方式一样

创建方式跟创建数据库资源库步骤类似，只是不需要用户密码就可以访问，跨

平台使用比较麻烦

1)选择connect

2)点击add后点击Other Repositories

3)选择File Repository

4)填写信息

到此这篇关于kettle在windows上安装配置与实践案例的文章就介绍到这了,更多相关kettle在windows安装内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

Kettle中使用JavaScrip调用jar包对文件内容进行MD5加密的操作方法

Kettle中使用JavaScript调用jar包对文件内容进行MD5加密.本文主要知识点: JavaScript调用jar包对文件内容进行MD5加密,返回加密md5值 Kettle实现对文件内容的加密,返回加密md5值 2.使用方法 1)下载jar包 http://xiazai.jb51.net/202009/yuanma/filemd5hash_jb51.rar 2)将jar包导入Kettle的lib目录下 3)重启Kettle Spoon.bat,使得kettle加载到新加入的jar包,下
sql server定时作业调用Kettle job出错的快速解决方法

错误信息: Unable to list jar files in plugin folder 'C:\Windows\system32\config\systemprofile\.kettle\plugins' Unable to get VFS File object for filename 'C:\Windows\system32\config\systemprofile\.kettle\plugins' : Could not find file with URI "C:\Window
kettle中使用js调用java类的方法

1. 需要事先将jar包放在kettle 的 libext 目录,kettle 在启动时会自动加载libext 目录下的所有 jar 包. 2. modified java script 步骤要选中 compatibility mode,并将 content 设置为输出的字段. 代码如下: 复制代码代码如下: var 变量 = new Packages.包名(参数 );
通过Kettle自定义jar包供javascript使用

这篇文章主要介绍了通过Kettle自定义jar包供javascript使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下我们都知道 Kettle 是用 Java 语言开发,并且可以在 JavaScript 里面直接调用 java 类方法.所以有些时候,我们可以自定义一些方法,来供 JavaScript 使用. 一.在 java 项目中创建工具类在项目中,创建 utils 工具类,比如计算总页码的一个方法.代码如下: public cla
Kettle的MySQL数据源版本问题及解决

目录背景原因 1.官方支持问题 2.MySQL曾经换过包名解决方法 1.将高版本驱动包 2.如图配置 3.链接成功背景使用Kettle创建MySQL链接时,JDBC包版本兼容问题,只能用5.1的mysql.jar包. 高版本用不了.然而,现在普遍都是8.0的MySQL版本. 原因 1.官方支持问题如图可以看到官方支持的是MySQL-JDBC-5.1.jar. 经过测试,5.1的jar包,确实可以直接用,但是链接高版本的MySQL时会出问题. 2.MySQL曾经换过包名版本 driv
kettle在windows上安装配置与实践案例

目录第1章 kettle概述 1.1 什么是kettle 1.2 Kettle核心知识点 1.2.1 Kettle工程存储方式 1.2.2 Kettle的两种设计 1.2.3 Kettle的组成 1.3 kettle特点第2章 kettle安装部署和使用 2.1 kettle安装地址 2.2 Windows下安装使用 2.2.1 概述 2.2.2 安装 2.2.3 案例 2.3 创建资源库 2.3.1 数据库资源库 2.3.2 文件资源库第1章 kettle概述 1.1 什么是kettle
在Windows上安装和配置 Jupyter Lab 作为桌面级应用程序教程

什么是 Jupyter Lab Jupyter Lab 是 Jupyter notebook 的升级版,优点这里不作赘述. 一.安装 Jupyter Lab 如果你安装了 Anaconda,最新版的 Anaconda 自带 Lab,可跳过下面这一步. pip install jupyter pip install jupyterlab 安装完后,简单运行一下,在命令提示符模式下输入: jupyter lab --no-browser 会显示: 将 URL 在浏览器中打开即可 OK,虽然有点麻烦,
详解TensorFlow在windows上安装与简单示例

本文介绍了详解TensorFlow在windows上安装与简单示例,分享给大家,具体如下: 安装说明平台:目前可在Ubuntu.Mac OS.Windows上安装版本:提供gpu版本.cpu版本安装方式:pip方式.Anaconda方式 Tips: 在Windows上目前支持python3.5.x gpu版本需要cuda8,cudnn5.1 安装进度 2017/3/4进度: Anaconda 4.3(对应python3.6)正在安装,又删除了,一无所有了 2017/3/5进度: Anaco
快速在Windows上安装MySQL5.7压缩包

本文给大家分享在Windows上安装MySQL5.7压缩包的方法,具体内容详情如下所示: 压缩包解压到指定路径下 E:\mysql\mysql-5.7.18-winx64 准备my.ini配置文件 # MySQL Server Instance Configuration File # --------------------------------------------------------------- # Generated by the MySQL Server Instance C
Windows Server2012 安装配置DNS服务器方法详解

在云服务器 Windows Server2012 上安装配置DNS服务器方法,安装与配置非常简单,在这里写个完整教程方便大家查询一.安装DNS服务器 1.打开服务器管理器,点击添加角色和功能 2.一直下一步,选择基于角色或基于功能的安装 3.选择目标服务器,只有一台 4.添加DNS服务器 5.一直下一步直到安装成功二.配置DNS服务器之前安装好了DNS服务器,但是还需要进一步的配置.这里,我要将百度的ip地址,解析到自定义的域名www.wcfwcf.com上 1.安装DNS服务器成功后可以
如何在windows下安装配置python工具Ulipad

在windows下安装配置Ulipad 今天推荐一款轻便的文本编辑器Ulipad,用来写一些小的Python脚本非常方便. Ulipad下载地址: https://github.com/limodou/ulipad 注意Ulipad是基于wxPython编写的,因此需要有wxpython的支持,得先安装wxpython. 安装完成之后,打开Ulipad就是如下界面了: Ulipad通用设置: 选择"编辑"->"参数": 这里可以设置文件的默认编码格式.自动缩
在Windows下安装配置CPU版的PyTorch的方法

由于我已经安装了anaconda,所以不在赘述,下载可以上清华镜像版下载 https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 我下的版本为Anaconda3-5.2.0-Windows-x86_64 对应python版本为3.6.5 版本根据个人需求下载即可.下面开始具体的PyTorch的cpu版本安装. 1.添加镜像源还是使用清华源下载,打开cmd或者 anaconda prompt,输入以下代码: conda config --ad
windows上安装Anaconda和python的教程详解

一提到数字图像处理编程,可能大多数人就会想到matlab,但matlab也有自身的缺点: 1.不开源,价格贵 2.软件容量大.一般3G以上,高版本甚至达5G以上. 3.只能做研究,不易转化成软件. 因此,我们这里使用Python这个脚本语言来进行数字图像处理. 要使用Python,必须先安装python,一般是2.7版本以上,不管是在windows系统,还是Linux系统,安装都是非常简单的. 要使用python进行各种开发和科学计算,还需要安装对应的包.这和matlab非常相似,只是matla
mysql 5.7.9 winx64在windows上安装遇到的问题

mysql5.7.9版本以上在windwos上安装时会遇到无法启动但是没有任何报错的问题,那是因为5.7.9以上的版本在MySQL目录下会缺少data目录: Data目录下存储的是一些表文件,用来描述数据.结构等,data目录不能自建,必须自动生产,但是可以从正常版本拷过来其实修改很简单,只要一条命令即可:#mysql --initialize 之后再次启动就成功了 MySQL安装好之后,正常情况下是没有密码的(除非自己添加),直接命令进去#mysql -uroot -p ,不用输入密码直接回
Linux 7.4上安装配置Oracle 11.2.0.4图文教程

1. 配置Yum源及关闭SeLinux [root@localhost ~]# mkdir /media/rhel [root@localhost ~]# mount /dev/cdrom /media/rhel mount: /dev/sr0 is write-protected, mounting read-only [root@localhost ~]# vi /etc/yum.repos.d/iso.repo [iso] name=iso baseurl=file:///media/rh