Apache教程Hudi与Hive集成手册

2025-02-17 18:39:07

1. Hudi表对应的Hive外部表介绍

Hudi源表对应一份HDFS数据，可以通过Spark，Flink 组件或者Hudi客户端将Hudi表的数据映射为Hive外部表，基于该外部表， Hive可以方便的进行实时视图，读优化视图以及增量视图的查询。

2. Hive对Hudi的集成

这里以Hive3.1.1、 Hudi 0.9.0为例，其他版本类似

将hudi-hadoop-mr-bundle-0.9.0xxx.jar , hudi-hive-sync-bundle-0.9.0xx.jar 放到hiveserver 节点的lib目录下

修改hive-site.xml找到hive.default.aux.jars.path 以及hive.aux.jars.path 这两个配置项，将第一步中的jar包全路径给配置上去：配置后如下

<name>hive.default.aux.jars.path</name>
<value>xxxx,jar,xxxx,jar,file:///mypath/hudi-hadoop-mr-bundle-0.9.0xxx.jar,file:///mypath/hudi-hive-sync-bundle-0.9.0xx.jar</value>

配置完后重启hive-server

对于Hudi的bootstrap表（tez查询），除了要添加hudi-hadoop-mr-bundle-0.9.0xxx.jar , hudi-hive-sync-bundle-0.9.0xx.jar这两个jar包，还需把hbase-shaded-miscellaneous-xxx.jar, hbase-metric-api-xxx.jar,hbase-metrics-xxx.jar, hbase-protocol-shaded-xx.jar,hbase-shaded-protobuf-xxx.jar,htrce-core4-4.2.0xxxx.jar按上述步骤添加进去。

3. 创建Hudi表对应的hive外部表

一般来说Hudi表在用Spark或者Flink写入数据时会自动同步到Hive外部表，此时可以直接通过beeline查询同步的外部表，若写入引擎没有开启自动同步，则需要手动利用hudi客户端工具run_hive_sync_tool.sh 进行同步具体可以参考官网查看相关参数。

4. 查询Hudi表对应的Hive外部表

4.1 操作前提

使用Hive查询Hudi表前，需要通过set命令设置hive.input.format，否则会出现数据重复，查询异常等错误，如下面这个报错就是典型的没有设置hive.input.format 导致的

java.lang.IllegalArgumentException: HoodieRealtimeReader can oly work on RealTimeSplit and not with xxxxxxxxxx

除此之外对于增量查询，还需要set命令额外设置3个参数

set hoodie.mytableName.consume.mode=INCREMENTAL;
set hoodie.mytableName.consume.max.commits=3;
set hoodie.mytableName.consume.start.timestamp=commitTime;

注意这3个参数是表级别参数

参数名	描述
hoodie.mytableName.consume.mode	Hudi表的查询模式。增量查询：INCREMENTAL非增量查询：不设置或者设为SNAPSHOT
hoodie.mytableName.consume.start.timestamp	Hudi表增量查询起始时间
hoodie. mytableName.consume.max.commits	Hudi表基于hoodie.mytableName.consume.start.timestamp 之后要查询的增量commit次数。提交次数，如设置为3时，代表增量查询从指定的起始时间之后commit 3次的数据，设为-1时，增量查询从指定的起始时间之后提交的所有数据

4.2 COW类型Hudi表的查询

例如Hudi原表表名为hudicow，同步给hive之后hive表名hudicow

4.2.1 COW表实时视图查询

设置hive.input.format 为org.apache.hadoop.hive.ql.io.HiveInputFormat或者org.apache.hudi.hadoop.hive.HoodieCombineHiveInputFormat后，像普通的hive表一样查询即可

set hive.input.format= org.apache.hadoop.hive.ql.io.HiveInputFormat;
select count(*) from hudicow;

4.2.2 COW表增量查询

除了要设置hive.input.format，还需要设置上述的3个增量查询参数，且增量查询语句中的必须添加where 关键字并将_hoodie_commit_time > 'startCommitTime'作为过滤条件（这地方主要是hudi的小文件合并会把新旧commit的数据合并成新数据，hive是没法直接从parquet文件知道哪些是新数据哪些是老数据）

set hive.input.format = org.apache.hadoop.hive.ql.io.HiveInputFormat;
set hoodie.hudicow.consume.mode = INCREMENTAL;
set hoodie.hudicow.consume.max.commits = 3;
set hoodie.hudicow.consume.start.timestamp = xxxx;
select count(*) from hudicow where `_hoodie_commit_time` > 'xxxx'

注意_hoodie_commit_time 的引号是反引号（tab键上面那个）不是单引号， 'xxxx'是单引号

4.3 MOR类型Hudi表的查询

例如mor类型Hudi源表的表名为hudimor，映射为两张Hive外部表hudimor_ro（ro表）和hudimor_rt（rt表）

4.3.1 MOR表读优化视图

实际上就是读 ro表，和cow表类似设置完hiveInputFormat 之后和普通的hive表一样查询即可。

4.3.2 MOR表实时视图

设置了hive.input.format之后，即可查询到Hudi源表的最新数据

set hive.input.format = org.apache.hadoop.hive.ql.io.HiveInputFormat;
select * from hudicow_rt；

4.3.3 MOR表增量查询

这个增量查询针对的rt表，不是ro表。通COW表的增量查询类似

set hive.input.format = org.apache.hudi.hadoop.hive.HoodieCombineHiveInputFormat; // 这地方指定为HoodieCombineHiveInputFormat
set hoodie.hudimor.consume.mode = INCREMENTAL;set hoodie.hudimor.consume.max.commits = -1;
set hoodie.hudimor.consume.start.timestamp = xxxx;
select * from hudimor_rt where `_hoodie_commit_time` > 'xxxx'; // 这个表名要是rt表

说明如下

set hive.input.format=org.apache.hudi.hadoop.hive.HoodieCombineHiveInputFormat;

最好只用于rt表的增量查询，当然其他种类的查询也可以设置为这个，这个参数会影响到普通的hive表查询，因此在rt表增量查询完成后，应该设置

set hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;

或者改为默认值

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

用于其他表的查询。

set hoodie.mytableName.consume.mode=INCREMENTAL;

仅用于该表的增量查询模式，若要对该表切换为其他查询模式，应设置

set hoodie.hudisourcetablename.consume.mode=SNAPSHOT;

当前Hudi（0.9.0）对接Hive的一些问题，请使用master分支或即将发布的0.10.0版本

hive读hudi表会将所有的数据给打印出来有严重的性能问题和数据安全问题。

MOR表的实时视图读取请按需设置mapreduce.input.fileinputformat.split.maxsize的大小禁止hive取切分读取的文件，否则会出现数据重复。这个问题当前是无解的，spark读hudi实时视图的时候代码直接写死不会切分文件，hive需要手动设置。

如果碰到classNotFound， noSuchMethod等错误请检查hive lib库下面的jar包是否出现冲突。

5. Hive侧源码修改

为支持Hive查询Hudi的纯log文件需要对Hive侧源码进行修改。

具体修改org.apache.hadoop.hive.common.FileUtils 如下函数

public static final PathFilter HIDDEN_FILES_PATH_FILTER = new PathFilter() {   
  @Override   
  public boolean accept(Path p) {     
    String name = p.getName();     
    boolean isHudiMeta = name.startsWith(".hoodie");     
    boolean isHudiLog = false;     
    Pattern LOG_FILE_PATTERN = Pattern.compile("\\.(.*)_(.*)\\.(.*)\\.([0-9]*)(_(([0-9]*)-([0-9]*)-([0-9]*)))?");     
    Matcher matcher = LOG_FILE_PATTERN.matcher(name);     
    if (matcher.find()) {       
      isHudiLog = true;     
    }     
    boolean isHudiFile = isHudiLog || isHudiMeta;     
    return (!name.startsWith("_") && !name.startsWith(".")) || isHudiFile;   
  } 
};

重新编译hive，把新编译的hive-common-xxx.jar, hive-exec-xxx.jar 替换到hive server的lib目录下注意权限和名字和原来的jar包保持一致。

最后重启hive-server即可。

以上就是Apache教程Hudi与Hive集成手册的详细内容，更多关于Apache Hudi与Hive集成手册的资料请关注我们其它相关文章！

Apache Pulsar集群搭建部署详细过程

目录一.集群组成说明二.安装前置条件三.ZooKeeper集群搭建四.BookKeeper集群搭建五.Broker集群搭建六.docker安装pulsar-dashboard 一.集群组成说明 1.搭建Pulsar集群至少需要3个组件:ZooKeeper集群.BookKeeper集群和Broker集群(Broker是Pulsar的自身实例).这三个集群组件如下:ZooKeeper集群(3个ZooKeeper节点组成)Bookie集群(也称为BookKeeper集群,3个BookKee
Apache Hudi结合Flink的亿级数据入湖实践解析

目录 1. 实时数据落地需求演进 2. 基于Spark+Hudi的实时数据落地应用实践 3. 基于Flink自定义实时数据落地实践 4. 基于Flink + Hudi的落地数据实践 5. 后续应用规划及展望 5.1 取代离线报表,提高报表实时性及稳定性 5.2 完善监控体系,提升落数据任务稳定性 5.3 落数据中间过程可视化探索本次分享分为5个部分介绍Apache Hudi的应用与实践 1. 实时数据落地需求演进实时平台上线后,主要需求是开发实时报表,即抽取各类数据源做实时etl后,吐出实时
Vertica集成Apache Hudi重磅使用指南

目录 1. 摘要 2. Apache Hudi介绍 3. 环境准备 4. Vertica和Apache Hudi集成 4.1 在 Apache Spark 上配置 Apache Hudi 和 AWS S3 4.2 配置 Vertica 和 Apache HUDI 集成 4.3 如何让 Vertica 查看更改的数据 4.3.1 写入数据 4.3.2 更新数据 4.3.3 创建和查看数据的历史快照 1. 摘要本文演示了使用外部表集成 Vertica 和 Apache Hudi. 在演示中我们使用
Apache Hudi灵活的Payload机制硬核解析

1.摘要 Apache Hudi 的Payload是一种可扩展的数据处理机制,通过不同的Payload我们可以实现复杂场景的定制化数据写入方式,大大增加了数据处理的灵活性.Hudi Payload在写入和读取Hudi表时对数据进行去重.过滤.合并等操作的工具类,通过使用参数 "hoodie.datasource.write.payload.class"指定我们需要使用的Payload class.本文我们会深入探讨Hudi Payload的机制和不同Payload的区别及使用场景. 2
Apache Tomcat如何高并发处理请求

目录介绍接收Socket请求 Socket请求轮询请求具体处理总结参考: 介绍作为常用的http协议服务器,tomcat应用非常广泛.tomcat也是遵循Servelt协议的,Servelt协议可以让服务器与真实服务逻辑代码进行解耦.各自只需要关注Servlet协议即可.对于tomcat是如何作为一个高性能的服务器的呢?你是不是也会有这样的疑问? tomcat是如何接收网络请求? 如何做到高性能的http协议服务器? tomcat从8.0往后开始使用了NIO非阻塞io模型,提高了吞吐
Apache Hudi性能提升三倍的查询优化

目录 1. 背景 2. 设置 3. 测试 4. 结果 5. 总结从 Hudi 0.10.0版本开始,我们很高兴推出在数据库领域中称为 Z-Order 和 Hilbert 空间填充曲线的高级数据布局优化技术的支持. 1. 背景 Amazon EMR 团队最近发表了一篇很不错的文章展示了对数据进行聚簇是如何提高查询性能的,为了更好地了解发生了什么以及它与空间填充曲线的关系,让我们仔细研究该文章的设置. 文章中比较了 2 个 Apache Hudi 表(均来自 Amazon Reviews 数据集)
Apache教程Hudi与Hive集成手册

目录 1. Hudi表对应的Hive外部表介绍 2. Hive对Hudi的集成 3. 创建Hudi表对应的hive外部表 4. 查询Hudi表对应的Hive外部表 4.1 操作前提 4.2 COW类型Hudi表的查询 4.2.1 COW表实时视图查询 4.2.2 COW表增量查询 4.3 MOR类型Hudi表的查询 4.3.1 MOR表读优化视图 4.3.2 MOR表实时视图 4.3.3 MOR表增量查询 5. Hive侧源码修改 1. Hudi表对应的Hive外部表介绍 Hudi源表对应一份H
阿里云服务器apache配置SSL证书成功开启Https（记录趟过的各种坑）

环境: 阿里云云服务器 Windows Server 2008 标准版 SP2 中文版(趁1212优惠买的一年的水货配置) 阿里云购买的域名(已备案.已解析) 服务器:phpstudy:php5.4.45+Apache(因为是phpstudy集成的,所以没找到apache的版本,我感觉应该是2.4.8之前的版本) SSL证书 (配置过程中,我申请了2个不同机构的证书,第一个GG了,是在 https://www.trustasia.com/ 申请的1年免费证书.成功的是用的第二个,在
Spark SQL配置及使用教程

目录 SparkSQL版本: SparkSQL DSL语法 SparkSQL和Hive的集成 Spark应用依赖第三方jar包文件解决方案 SparkSQL的ThriftServer服务 SparkSQL的ThriftServer服务测试 Spark中beeline的使用通过jdbc来访问spark的ThriftServer接口 SparkSQL案例案例一:SparkSQL读取HDFS上Json格式的文件案例二:DataFrame和Dataset和RDD之间的互相转换
Spark SQL配置及使用教程

目录 SparkSQL版本: SparkSQL DSL语法 SparkSQL和Hive的集成 Spark应用依赖第三方jar包文件解决方案 SparkSQL的ThriftServer服务 SparkSQL的ThriftServer服务测试 Spark中beeline的使用通过jdbc来访问spark的ThriftServer接口 SparkSQL案例案例一:SparkSQL读取HDFS上Json格式的文件案例二:DataFrame和Dataset和RDD之间的互相转换
hive函数简介

首先我们要知道hive到底是做什么的.下面这几段文字很好的描述了hive的特性: 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析. 2.Hive是建立在 Hadoop 上的数据仓库基础构架.它提供了一系列的工具,可以用来进行数据提
apache性能测试工具ab使用详解

网站性能压力测试是服务器网站性能调优过程中必不可缺少的一环.只有让服务器处在高压情况下,才能真正体现出软件.硬件等各种设置不当所暴露出的问题. 性能测试工具目前最常见的有以下几种:ab.http_load.webbench.siege.今天我们专门来介绍ab. ab是apache自带的压力测试工具.ab非常实用,它不仅可以对apache服务器进行网站访问压力测试,也可以对或其它类型的服务器进行压力测试.比如nginx.tomcat.IIS等. 下面我们开始介绍有关ab命令的使用: 1.ab的原理
python入门教程 python入门神图一张

初试牛刀假设你希望学习Python这门语言,却苦于找不到一个简短而全面的入门教程.那么本教程将花费十分钟的时间带你走入Python的大门.本文的内容介于教程(Toturial)和速查手册(CheatSheet)之间,因此只会包含一些基本概念.很显然,如果你希望真正学好一门语言,你还是需要亲自动手实践的.在此,我会假定你已经有了一定的编程基础,因此我会跳过大部分非Python语言的相关内容.本文将高亮显示重要的关键字,以便你可以很容易看到它们.另外需要注意的是,由于本教程篇幅有限,有很多内容我会
配置hive元数据到Mysql中的全过程记录

在hive的安装目录下,进入conf目录,创建一个hive-site.xml文件根据官方文档配置参数,拷贝数据到hive-site.xml文件中 https://cwiki.apache.org/confluence/display/Hive/AdminManual+MetastoreAdmin 注意:先创建一个metastore数据库,字符集要用latin1 将mysql驱动复制到hive的lib目录里.(这有关上一篇安装MySQL的内容) 解压驱动包将mysql驱动复制到hive的lib
使用Apache Camel表达REST服务的方法

目录使用Apache Camel的REST服务如何使用Apache Camel来表达REST服务定义端点如何覆盖端口覆盖上下文路径在请求对象中定义验证规则如何处理异常总结使用Apache Camel的REST服务 Apache Camel可以作为一个独立的或嵌入的库在任何地方运行,它可以帮助整合.继续阅读,了解如何使用它来暴露REST服务. 如何使用Apache Camel来表达REST服务 Camel REST允许使用Restlet.Servlet和许多这样的HTTP感知组件
详解hive常见表结构

目录 hive简介 1.外部表 2.内部表 3.分区表 1.静态分区 2.动态分区 4.分桶表 1.抽样 2.map-side join 5.表的文件存储格式 1.TEXTFILE 2.SEQUENCEFILE 3.RCFILE 4.ORC 5.Parquet 6.总结 5.表的行存储格式(row format) 6.表属性 1.压缩 1.为什么要压缩 2.压缩常见的格式 3.压缩性能比较 hive简介 hive是基于Hadoop的一个数据仓库工具,用来进行数据提取.转化.加载,这是一种可以存储