Java数据开发辅助工具Docker与普通程序使用方法

2026-03-20 22:38:09

介绍

需求背景：

有很多业务系统，他们的数据库是相互独立的，俗称数据孤岛，为了做数据统计分析，就需要把这些数据归集在一个数据库中，比如数据仓库，然后多表关联查询，方便开发数据应用。希望能有这样的工具，指定两个数据库和表名，就可以将表从源数据库拷贝到目标数据库中。具体需求如下：

能自动同步表结构，如：源表加字段，目标表自动加字段。
支持增量或全量复制数据，比如按日期进行复制数据。
支持指定字段同步，只同步关心的那些字段。
支持主流的关系型数据库: mysql、db2、postgresql、oracle、sqlserver
源表和目标表表名可以不同，字段名也可以不同（已存在目标表的情况下）

因为自己要用，我就自己写了一个，顺便熟悉下 java 开发（之前一直用 Python，不得不说，Java 真浪费时间），本程序的最大用处就是构建集市或数仓所需要的基础层数据源，欢迎感兴趣的朋友一起加入。

程序的使用方法

Docker 方式：

这里用到三个容器:

app 也就是主程序本身，app 容器使用的程序文件就是 release 目录下的文件，已经做了绑定。
mysql 测试用的，作为源数据库，已提前放好了有 7000 条测试数据的表 somenzz_users。
postgres 测试用的，作为目标数据库，没有数据。

先部署，执行 docker-compose up -d 就会自动完成应用和数据库的部署：

$ git clone https://github.com/somenzz/database-sync.git
$ cd database-sync
$ docker-compose up -d
Creating database-sync_postgres_1 ... done
Creating database-sync_app_1      ... done
Creating database-sync_mysql_1    ... done

这样三个容器就启动了，使用 docker ps -a |grep database-sync 可以查看到三个正在运行的容器：

现在直接使用 docker exec -i database-sync_app_1 java -jar database-sync-1.3.jar 来执行程序：

mysql 容器已有测试数据，release/config/config.json 已经配置好了数据库的连接，因此可以直接试用，以下演示的是从 mysql 复制表和数据到 postgres：

1. 全量复制，自动建表：

docker exec -i database-sync_app_1 java -jar database-sync-1.3.jar mysql_test testdb somenzz_users postgres_test public users --sync-ddl

如果你不想每次都敲 docker exec -i database-sync_app_1 ，可以进入容器内部执行：

(py38env) ➜  database-sync git:(master) ✗ docker exec -it database-sync_app_1 /bin/bash
root@063b1dc76fe1:/app# ls
config database-sync-1.3.jar  lib  logs
root@063b1dc76fe1:/app# java -jar database-sync-1.3.jar mysql_test testdb somenzz_users postgres_test public users -sd

2. 增量复制：

root@063b1dc76fe1:/app# java -jar database-sync-1.3.jar mysql_test testdb somenzz_users postgres_test public zz_users "create_at >= '2018-01-09'"

3. 指定字段：

root@063b1dc76fe1:/app# java -jar database-sync-1.3.jar mysql_test testdb somenzz_users postgres_test public zz_users -ff="user_id,name,age" -tf="user_id,name,age" "create_at >= '2018-01-09'"

普通方式

程序运行前确保已安装 java 1.8 或后续版本，已经安装 maven，然后 clone 源码，打包：

git clone https://gitee.com/somenzz/database-sync.git
cd database-sync
mvn package

此时你会看到 target 目录，将 target 下的 lib 目录和 database-sync-1.3.jar 复制出来，放在同一目录下，然后再创建一个 config 目录，在 config 下新建一个 config.json 文件写入配置信息，然后将这个目录压缩，就可以传到服务器运行了，请注意先充分测试，jdk 要求 1.8+

[aaron@hdp002 /home/aaron/App/Java/database-sync]$ ls -ltr
total 48
drwxr-xr-x 2 aaron aaron  4096 Apr 23  2020 lib
-rwxrw-r-- 1 aaron aaron   157 Jun 23  2020 run.sh
drwxrwxr-x 2 aaron aaron  4096 Jul  3  2020 logs
-rw-rw-r-- 1 aaron aaron 24773 Mar 16  2021 database-sync-1.3.jar
drwxr-xr-x 7 aaron aaron  4096 Aug  3  2020 jdk1.8.0_231
drwxrwxr-x 2 aaron aaron  4096 Feb 19 17:07 config

你也可以直接下载我打包好的使用。

程序名称叫 database-sync，运行方式是这样的：

(py38env) ➜  target git:(master) ✗ java -jar database-sync-1.3.jar -h
Usage:
java -jar database-sync-1.0.jar [options] {fromDB} {fromSchema} {fromTable} {toDB} {toSchema} {toTable} [whereClause]
options:
        -v or --version                            :print version then exit
        -h or --help                               :print help info then exit
        -sd or --sync-ddl                          :auto synchronize table structure
        -ff=col1,col2 or --from-fields=col1,col2   :specify from fields
        -tf=col3,col4 or --to-fields=col3,col4     :specify to fields
        --no-feature or -nf                        :will not use database's feature

帮助说明：

[] 中括号里的内容表示选填，例如 [options] 表示 options 下的参数不是必须的。

1、其中 options 参数解释如下：

--sync-ddl 或者 -sd : 加入该参数会自动同步表结构。

--from_fields=col1,col2 或者 -ff=col1,col2 : 指定原表的字段序列，注意 = 前后不能有空格。

--to_fields=col3,col4 或者 -tf=col3,col4 : 指定目标表的字段序列，注意 = 前后不能有空格。

2、whereClause 表示 where 条件，用于增量更新，程序再插入数据前先按照 where 条件进行清理数据，然后按照 where 条件从原表进行读取数据。whereClause 最好使用双引号包起来，表示一个完整的参数。如："jyrq='2020-12-31'"

{} 大括号里的内容表示必填。

fromDb 是指配置在 config.json 的数据库信息的键，假如有以下配置文件：

{
      "postgres":{
        "type":"postgres",
        "driver":"org.postgresql.Driver",
        "url":"jdbc:postgresql://localhost:5432/apidb",
        "user": "postgres",
        "password":"aaron",
        "encoding": "utf-8"
    },
    "aarondb":{
        "type":"mysql",
        "driver":"com.mysql.cj.jdbc.Driver",
        "url":"jdbc:mysql://localhost:3306/aarondb?useSSL=false&characterEncoding=utf8&serverTimezone=UTC",
        "user": "aaron",
        "password":"aaron"
    }
}

fromDb、toDb 可以是 aarondb 或者 postgres。

fromSchema 读取数据的表的模式名，可以填写 "".

fromTable 读取数据的表明，必须提供。

toSchema 写入数据表的模式名，可以填写 ""，可以和 fromSchema 不同.

toTable 写入数据表的表名，必须提供，当写入表不存在时，自动按读取表的表结构创建，可以和 fromTable 不同。

全量、增量、指定字段的使用样例请参考 Docker 方式。

配置文件说明

配置文件位于 config/config.json，如下所示：


{
    "sjwb":{
        "type":"db2",
        "driver":"com.ibm.db2.jcc.DB2Driver",
        "url":"jdbc:db2://192.168.1.*:50000/wbsj",
        "user": "****",
        "password":"****",
        "tbspace_ddl": "/*这里可以放置指定表空间的语句*/",
        "encoding":"utf-8"
    },
     "dw_test":{
        "type":"db2",
        "driver":"com.ibm.db2.jcc.DB2Driver",
        "url":"jdbc:db2://192.168.169.*:60990/dwdb",
        "user": "****",
        "password":"****",
        "encoding":"gbk"
    },
     "postgres":{
        "type":"postgres",
        "driver":"org.postgresql.Driver",
        "url":"jdbc:postgresql://10.99.**.**:5432/apidb",
        "user": "****",
        "password":"****",
        "tbspace_ddl": "WITH (compression=no, orientation=orc, version=0.12)\ntablespace hdfs\n",
        "encoding":"utf-8"
    },
    "aarondb":{
        "type":"mysql",
        "driver":"com.mysql.cj.jdbc.Driver",
        "url":"jdbc:mysql://localhost:3306/aarondb?useSSL=false&characterEncoding=utf8&serverTimezone=UTC",
        "user": "****",
        "password":"****",
        "encoding":"utf-8"
    },
     "buffer-rows": 100000
}

配置文件说明：

type 表示数据库类型，均为小写：

mysql
postgres
db2
oracle
sqlserver

tbspace_ddl 表示自动建表时指定的表空间，该选项不是必需的，可以删除。

buffer-rows 表示读取多少行时一块写入目标数据库，根据服务器内存大小自己做调整，100000 行提交一次满足大多数情况了。

encoding 用于表结构同步时确定字段长度，比如说源库的字段是 gbk varchar(10)，目标库是 utf-8，那么就应该为 varchar(15)，这样字段有中文就不会出现截断或插入失败问题，程序这里 2 倍，也就是 varchar(20) ，这样字段长度不会出现小数位。

最后的话

提高数据库间表的复制效率，如果不需要对源表字段进行转换，就丢掉低效的 datastage 和 kettle 吧。

以上就是Java数据开发辅助工具Docker与普通程序使用方法的详细内容，更多关于Java数据开发的资料请关注我们其它相关文章！

docker启动Java程序的方法步骤

创建一个简单的Spring boot web项目 idea工具创建Spring boot web项目,因为是测试,一直next就行. 写一个test API,用来访问,服务端口号可以不用改,我本地改成8701. 程序启动,发现程序不是默认的8080端口了,访问:http://localhost:8701/v1/hello 以上一个简单web项目建好了,下面我们通过docker来运行这个demo项目第一步,你需要安装docker(这里不做详细步骤). 第二步,我们需要一个有java环境docke
在Docker中开发Java 8 Spring Boot应用程序的方法

在本文中,我将向您展示如何使用Java 8开发和运行简单的Spring Web应用程序,而无需在本地计算机上安装Java 8. Python开发人员使用虚拟环境为不同项目创建和管理单独的环境,每个环境使用不同版本的Python来执行,存储和解析Python依赖项.Java和许多其他技术不支持虚拟环境概念.在这一点上,Docker来帮助我们. Docker是一个虚拟化平台.您可以从Docker官方网站上找到基本信息和安装指南. 一旦安装了Docker工具箱,就不需要安装我们的示例应用程序中所需的J
利用 Docker 构建简单的 java 开发编译环境的方法详解

目前 Java 语言的版本很多,除了常用的 Java 8,有一些遗留项目可能使用了 Java 7,也可能有一些比较新的的项目使用了 Java 10 以上的版本.如果想切换自己本地的 Java 开发环境,折腾起来还是需要花费一些时间的,并且日后在不同版本间切换每次都要折腾一次. Docker 的出现让我们维护不同版本的开发编译环境变得简单,如果你还不知道什么是 Docker 可以看看 Docker 入门介绍.我们可以采用两种方式来构建 java 的开发环境,一种是在容器内编译运行,一种是在容器外编
使用Docker搭建Java环境的步骤方法

Docker是干什么的 Docker 是一个基于Linux容器(LXC-linux container)的高级容器引擎,基于go语言开发,源代码托管在 Github 上, 遵从Apache2.0协议开源.Docker的目标是实现轻量级的操作系统虚拟化解决方案. 学习Docker首先要了解几个概念: 镜像-Docker的镜像和常见的系统ISO镜像类似,包含了应用程序的信息: 容器-容器相当于一个可以运行起来的虚拟机,应用程序运行在容器中,Docker运行在"Docker"上: 仓库-仓库
Java数据开发辅助工具Docker与普通程序使用方法

目录介绍需求背景: 程序的使用方法 Docker 方式: 普通方式配置文件说明最后的话介绍需求背景: 有很多业务系统,他们的数据库是相互独立的,俗称数据孤岛,为了做数据统计分析,就需要把这些数据归集在一个数据库中,比如数据仓库,然后多表关联查询,方便开发数据应用.希望能有这样的工具,指定两个数据库和表名,就可以将表从源数据库拷贝到目标数据库中.具体需求如下: 能自动同步表结构,如:源表加字段,目标表自动加字段. 支持增量或全量复制数据,比如按日期进行复制数据. 支持指定字段同步,只同
node.js开发辅助工具nodemon安装与配置详解

nodemon安装及使用全局安装 nodemon 包,这样新创建的 Node.js 应用都能使用 Nodemon 运行起来了 npm install -g nodemon 安装完成之后,Nodemon 就可以启动 Express 应用了,先关闭当前正在执行的应用程序,然后再执行命令: nodemon index.js 默认地,nodemon会自动打开index.js.所以,也可以使用如下命令 nodemon 通过 Nodemon 启动应用之后,不管是修改了代码,还是安装了新的 npm 包,No
分享Java常用开发编辑器工具

目录 1.editplus 1.1官方下载 2.解压就可以使用 2.1vscode 2.2下载 2.3解压建立data 2.4软件常用配置方式settings.json 2.5vscode使用说明及快捷方式 2.6为vscode增加鼠标右键功能 2.7用户代码段设置 2.8清除每次执行java程序的一组长字符串 3.Eclipse 3.1eclipse基本安装使用 3.2Eclipse隐藏菜单栏 3.3关闭spelling检查 3.4启动自动保存功能 3.5代码皮肤代码样式 3.6中英互译项目
Java操作pdf的工具类itext的处理方法

目录一.什么是iText? 二.引入jar 三.iText常用类四.生成PDF步骤五.Java操作pdf的工具类itext 六.更多的Java代码实例一.什么是iText? 在企业的信息系统中,报表处理一直占比较重要的作用,iText是一种生成PDF报表的Java组件.通过在服务器端使用Jsp或JavaBean生成PDF报表,客户端采用超链接显示或下载得到生成的报表,这样就很好的解决了B/S系统的报表处理问题. 二.引入jar 1.项目要使用iText,必须引入jar包 <depende
JAVA代码开发规范

一.开发工具规范: 1. 开发工具经项目负责人调试后统一确定. 2. 开发工具一经确定不允许集成任何非统一插件,若有需要,经项目负责人同意后统一为项目组成员添加. 3. 开发工具的编码格式不允许修改. 二.排版规范: 1. 关键词(或变量)和操作符之间加一个空格. 例如:int iCont = 1;//操作符和值之间有一个空格. 2. 相对独立的代码块与块之间加空行. 例如:两个方法之间需要用空格隔开. 3. 较长的语句.表达式等要分成多行书写. 4. 长表达式要在低优先级操作符处划分新行,操
推荐两款java开发实用工具 hutool 和 lombok

一.hutool工具摘抄一段hutool工具的简介: Hutool是一个小而全的Java工具类库,通过静态方法封装,降低相关API的学习成本,是项目中"util"包友好的替代,它节省了开发人员对项目中公用类和公用工具方法的封装时间,使开发专注于业务. hutool-aop JDK动态代理封装,提供非IOC下的切面支持 hutool-bloomFilter 布隆过滤,提供一些Hash算法的布隆过滤 hutool-cache 简单缓存实现 hutool-core 核心,包括Bean操作.
Java多线程开发工具之CompletableFuture的应用详解

做Java编程,难免会遇到多线程的开发,但是JDK8这个CompletableFuture类很多开发者目前还没听说过,但是这个类实在是太好用了,了解它的一些用法后相信你会对它爱不释手(呸渣男,咋对谁都爱不释手呢),好了我先简单举个列子,告诉你用它有多好.Single Dog拿一个Appointment来举个列子,如下: /** * 女神化完妆之后,还需要一小会选衣服,不过分吧. * 也就是说我们现在有2个异步任务,第一个是化妆,第二个是选衣服. * 选衣服要在化妆完成之后进行,这两个任务是串行
初学java常用开发工具介绍

Java的应用越来越广泛,学习Java的人也越来越多.学过程序设计的人知道,使用Basic进行程序设计,可以使用QBasic.Visual Basic等开发工具:使用C语言进行程序设计,可以使用Turbo C.Visual C++.C++ Builder等开发工具.这些开发工具集成了编辑器和编译器,是集成开发工具,很方便使用.学习Java程序设计,同样需要方便易用的开发工具.Java的开发工具很多,而且各有优缺点,初学者往往不知道有哪些常用的开发工具,或者由于面临的选择比较多而产生困惑.本文对初
Java 8 开发的 Mybatis 注解代码生成工具

MybatisAnnotationTools MybatisAnnotationTools 是基于 Java8 开发的一款可以用于自动化生成 MyBatis 注解类的工具,支持配置数据源.类路径,表名去前缀.指定类名前后缀等功能.同时支持 Java 8 和 Mybatis 3.5+ 的一些新特性,比如时间类 LocalDateTime/LocalDate .接口方法返回 Optional 等. 此工具生成的代码是基于注解的 Mybatis 接口方法,所以不会生成 XML 配置文件. 源码地址:G
提升java开发效率工具lombok使用争议

目录引言什么是 lombok 如何使用 lombok 的原理和滥用引言对使用 lombok 还是有很多争议的,有些公司不建议使用,有些公司又大量使用. 我们的想法是:可以使用,但是不要滥用. 什么是 lombok Lombok是一种Java™实用工具,可用来帮助开发人员消除Java的冗长代码,尤其是对于简单的Java对象(POJO) . 它通过注释实现这一目的. 通过在开发环境中实现Lombok,开发人员可以节省构建诸如hashCode() 和 equals()这样的方法以及以往用来分