Clickhouse系列之整合Hive数据仓库示例详解

2025-04-02 10:12:23

前言

什么是Hive？ Apache Hive 数据仓库软件便于使用SQL读取、写入和管理驻留在分布式存储中的大型数据集。结构可以投射到已存储的数据上。提供了一个命令行工具和JDBC驱动程序，用于将用户连接到Hive。

Hive引擎允许您对HDFS配置单元表执行SELECT查询。目前支持如下输入格式：

文本：仅支持简单标量列类型，二进制除外；
ORC：支持除char以外的简单标量列类型；仅支持数组等复杂类型；
parquet：支持所有简单的标量列类型；仅支持数组等复杂类型。

正文

创建Hive引擎表详细信息以及参数详解

CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster]
(
name1 [type1] [ALIAS expr1],
name2 [type2] [ALIAS expr2],
...
) ENGINE = Hive('thrift://host:port', 'database', 'table');
PARTITION BY expr

表结构可以与原始配置单元表结构不同：

列名应该与原始配置单元表中的列名相同(推荐列名相同处理)，但您可以只使用其中的一些列，并且可以按任何顺序使用，也可以使用从其他列计算的一些别名列。
列类型应与原始配置单元表中的列类型相同。
按表达式划分应该与原始Hive表一致，按表达式划分中的列应该在表结构中。

引擎参数：

thrift://host:port-配置单元元存储地址
database—远程数据库名称。
table—远程表名称。

实战案例

为远程文件系统启用本地缓存。通过官方的基准测试表明，使用缓存的速度快了近两倍。在使用缓存之前，将其添加到config.xml

<local_cache_for_remote_fs>
    <enable>true</enable>
    <root_dir>local_cache</root_dir>
    <limit_size>559096952</limit_size>
    <bytes_read_before_flush>1048576</bytes_read_before_flush>
</local_cache_for_remote_fs>

参数详解：

enable:ClickHouse将在启动后维护远程文件系统（HDFS）的本地缓存（如果为true）。
root_dir：必需。用于存储远程文件系统的本地缓存文件的根目录。
limit_size：必填。本地缓存文件的最大大小（字节）。
bytes_read_before_flush：从远程文件系统下载文件时，在刷新到本地文件系统之前控制字节数。默认值为1MB。

尽管ClickHouse在启用远程文件系统本地缓存的情况下启动时，我们仍然可以选择不使用其查询中设置为use_local_cache_for_remote_fs=0的缓存。use_local_cache_for_remote_fs默认为false。

ORC数据格式

Hive创建ORC数据格式表

CREATE TABLE `test`.`test_orc`(
`f_tinyint` tinyint,
`f_smallint` smallint,
`f_int` int,
`f_integer` int,
`f_bigint` bigint,
`f_float` float,
`f_double` double,
`f_decimal` decimal(10,0),
`f_timestamp` timestamp,
`f_date` date,
`f_string` string,
`f_varchar` varchar(100),
`f_bool` boolean,
`f_binary` binary,
`f_array_int` array<int>,
`f_array_string` array<string>,
`f_array_float` array<float>,
`f_array_array_int` array<array<int>>,
`f_array_array_string` array<array<string>>,
`f_array_array_float` array<array<float>>)
PARTITIONED BY (
`day` string)
ROW FORMAT SERDE
'org.apache.hadoop.hive.ql.io.orc.OrcSerde'
STORED AS INPUTFORMAT
'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat'
LOCATION
'hdfs://testcluster/data/hive/test.db/test_orc'

insert into test.test_orc partition(day='2021-09-18') select 1, 2, 3, 4, 5, 6.11, 7.22, 8.333, current_timestamp(), current_date(), 'hello world', 'hello world', 'hello world', true, 'hello world', array(1, 2, 3), array('hello world', 'hello world'), array(float(1.1), float(1.2)), array(array(1, 2), array(3, 4)), array(array('a', 'b'), array('c', 'd')), array(array(float(1.11), float(2.22)), array(float(3.33), float(4.44)));

Clickhouse创建Hive表引擎

CREATE TABLE test.test_orc
(
    `f_tinyint` Int8,
    `f_smallint` Int16,
    `f_int` Int32,
    `f_integer` Int32,
    `f_bigint` Int64,
    `f_float` Float32,
    `f_double` Float64,
    `f_decimal` Float64,
    `f_timestamp` DateTime,
    `f_date` Date,
    `f_string` String,
    `f_varchar` String,
    `f_bool` Bool,
    `f_binary` String,
    `f_array_int` Array(Int32),
    `f_array_string` Array(String),
    `f_array_float` Array(Float32),
    `f_array_array_int` Array(Array(Int32)),
    `f_array_array_string` Array(Array(String)),
    `f_array_array_float` Array(Array(Float32)),
    `day` String
)
ENGINE = Hive('thrift://202.168.117.26:9083', 'test', 'test_orc')
PARTITION BY day

通过Clickhouse查询Hive数据

SELECT * FROM test.test_orc settings input_format_orc_allow_missing_columns = 1\G

Parquet数据格式

Hive创建Parquet数据格式表

CREATE TABLE `test`.`test_parquet`(
`f_tinyint` tinyint,
`f_smallint` smallint,
`f_int` int,
`f_integer` int,
`f_bigint` bigint,
`f_float` float,
`f_double` double,
`f_decimal` decimal(10,0),
`f_timestamp` timestamp,
`f_date` date,
`f_string` string,
`f_varchar` varchar(100),
`f_char` char(100),
`f_bool` boolean,
`f_binary` binary,
`f_array_int` array<int>,
`f_array_string` array<string>,
`f_array_float` array<float>,
`f_array_array_int` array<array<int>>,
`f_array_array_string` array<array<string>>,
`f_array_array_float` array<array<float>>)
PARTITIONED BY (
`day` string)
ROW FORMAT SERDE
'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'
STORED AS INPUTFORMAT
'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION
'hdfs://testcluster/data/hive/test.db/test_parquet'

insert into test.test_parquet partition(day='2021-09-18') select 1, 2, 3, 4, 5, 6.11, 7.22, 8.333, current_timestamp(), current_date(), 'hello world', 'hello world', 'hello world', true, 'hello world', array(1, 2, 3), array('hello world', 'hello world'), array(float(1.1), float(1.2)), array(array(1, 2), array(3, 4)), array(array('a', 'b'), array('c', 'd')), array(array(float(1.11), float(2.22)), array(float(3.33), float(4.44)));

Clickhouse创建Hive表引擎

CREATE TABLE test.test_parquet
(
`f_tinyint` Int8,
`f_smallint` Int16,
`f_int` Int32,
`f_integer` Int32,
`f_bigint` Int64,
`f_float` Float32,
`f_double` Float64,
`f_decimal` Float64,
`f_timestamp` DateTime,
`f_date` Date,
`f_string` String,
`f_varchar` String,
`f_char` String,
`f_bool` Bool,
`f_binary` String,
`f_array_int` Array(Int32),
`f_array_string` Array(String),
`f_array_float` Array(Float32),
`f_array_array_int` Array(Array(Int32)),
`f_array_array_string` Array(Array(String)),
`f_array_array_float` Array(Array(Float32)),
`day` String
)
ENGINE = Hive('thrift://localhost:9083', 'test', 'test_parquet')
PARTITION BY day

通过Clickhouse查询Hive数据

SELECT * FROM test.test_parquet settings input_format_parquet_allow_missing_columns = 1\G

TextFile数据格式

Hive创建TextFile数据格式表

CREATE TABLE `test`.`test_text`(
`f_tinyint` tinyint,
`f_smallint` smallint,
`f_int` int,
`f_integer` int,
`f_bigint` bigint,
`f_float` float,
`f_double` double,
`f_decimal` decimal(10,0),
`f_timestamp` timestamp,
`f_date` date,
`f_string` string,
`f_varchar` varchar(100),
`f_char` char(100),
`f_bool` boolean,
`f_binary` binary,
`f_array_int` array<int>,
`f_array_string` array<string>,
`f_array_float` array<float>,
`f_array_array_int` array<array<int>>,
`f_array_array_string` array<array<string>>,
`f_array_array_float` array<array<float>>)
PARTITIONED BY (
`day` string)
ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
'hdfs://testcluster/data/hive/test.db/test_text'

insert into test.test_text partition(day='2021-09-18') select 1, 2, 3, 4, 5, 6.11, 7.22, 8.333, current_timestamp(), current_date(), 'hello world', 'hello world', 'hello world', true, 'hello world', array(1, 2, 3), array('hello world', 'hello world'), array(float(1.1), float(1.2)), array(array(1, 2), array(3, 4)), array(array('a', 'b'), array('c', 'd')), array(array(float(1.11), float(2.22)), array(float(3.33), float(4.44)));

Clickhouse创建Hive表引擎

CREATE TABLE test.test_text
(
`f_tinyint` Int8,
`f_smallint` Int16,
`f_int` Int32,
`f_integer` Int32,
`f_bigint` Int64,
`f_float` Float32,
`f_double` Float64,
`f_decimal` Float64,
`f_timestamp` DateTime,
`f_date` Date,
`f_string` String,
`f_varchar` String,
`f_char` String,
`f_bool` Bool,
`day` String
)
ENGINE = Hive('thrift://localhost:9083', 'test', 'test_text')
PARTITION BY day

通过Clickhouse查询Hive数据

SELECT * FROM test.test_text settings input_format_skip_unknown_fields = 1, input_format_with_names_use_header = 1, date_time_input_format = 'best_effort'\G

总结

本节主要讲解了Clickhouse整合Hive数仓，利用了Hive引擎并通过thrift方式去连接，需要注意这种连接参数的设置以及代表意义。另外，这个过程我们需要注意的是，推荐开启缓存，这样查询速度会快很多。与此同时，也对Hive常用的三种数据类型ORC,Parquet,TextFile进行了一个实战案例操作，更多关于Clickhouse整合Hive数据仓库的资料请关注我们其它相关文章！

shell命令执行hive脚本(hive交互)

目录 Hive执行方式方式1 方式二方式三 Hive执行方式 Hive的hql命令执行方式有三种: 1.CLI 方式直接执行2.作为字符串通过shell调用hive –e执行(-S开启静默,去掉”OK”,”Time taken”)3.作为独立文件,通过shell调用 hive –f或hive –i执行执行方式1 键入"hive",启动hive的cli交互模式.Set可以查看所有环境设置参数,并可以重设.其他命令如, Use database 选择库 quit/exit 退出Hiv
Hive-SQL查询连续活跃登录用户思路详解

连续活跃登陆的用户指至少连续2天都活跃登录的用户解决类似场景的问题创建数据 CREATE TABLE test5active( dt string, user_id string, age int) ROW format delimited fields terminated BY ','; INSERT INTO TABLE test5active VALUES ('2019-02-11','user_1',23),('2019-02-11','user_2',19), ('2019-02
clickhouse 批量插入数据及ClickHouse常用命令详解

目录一.安装使用 Ⅰ).安装 Ⅱ).配置 Ⅲ).启停服务二.常用命令 Ⅰ).创建表 Ⅱ).创建物化视图 Ⅲ).插入数据 Ⅳ).查询数据 Ⅴ).创建NESTED表 Ⅵ).NESTED表数据查询 Ⅶ).配置字典项 Ⅷ).字典查询 Ⅸ).导入数据 Ⅹ).导出数据 Ⅺ).查看partition状态 Ⅻ).清理partition XIII).查看列的压缩率 XIV).查看物化视图的磁盘占用一.安装使用 ClickHouse是Yandex提供的一个开源的列式存储数据库管理系统,多用于联机分析(OLAP
hive数据仓库新增字段方法

目录新增字段 1.方法1 cascade知识 2.方法2 (适用于外部表) 3.方法3(下下策) 修改字段删除列新增字段 1.方法1 alter table 表名 add columns (列名 string COMMENT '新添加的列') CASCADE; alter table 表名 add columns (列名 string COMMENT '新添加的列'): hive表中指定位置增加一个字段分两步,先添加字段到最后(add columns),然后再移动到指定位置(change
dataGrip显示clickhouse时间字段不正确的问题

最近做数据迁移碰到一个问题,源数据和目的端数据,导入的时间怎么都差8个小时服务器时间是对的服务器上clickhouse客户端连接查询出来的数据是对的显示的时间却不对发现是datagrip的问题,试了use_time_zone修改为Asia/Shanghai 发现并不行解决办法更改下面加粗的属性值即可到此这篇关于dataGrip显示clickhouse时间字段不正确的问题的文章就介绍到这了,更多相关dataGrip clickhouse时间不正确内容请搜索我们以前的文章或继续浏览下面
Clickhouse系列之整合Hive数据仓库示例详解

目录前言正文实战案例 ORC数据格式 Parquet数据格式 TextFile数据格式总结前言什么是Hive? Apache Hive 数据仓库软件便于使用SQL读取.写入和管理驻留在分布式存储中的大型数据集.结构可以投射到已存储的数据上.提供了一个命令行工具和JDBC驱动程序,用于将用户连接到Hive. Hive引擎允许您对HDFS配置单元表执行SELECT查询.目前支持如下输入格式: 文本:仅支持简单标量列类型,二进制除外: ORC:支持除char以外的简单标量列类型:仅支持数组
Springboot整合多数据源代码示例详解

最近有个老项目想逐步将新业务的数据放到新的数据库,以前的业务还得连接以前的数据库,于是需要整合多数据源 . 多数据源实际上是继承了AbstractRoutingDataSource类,这个类最终实现了DataSource接口,DataSource里只有一个getConnection方法,数据库每次访问的时候都要先通过这个方法获取连接,所有多数据源就是每次访问数据库之前动态的改变数据源. 在请求前改变数据源当然需要用到SpringAOP,自定义注解操作项目结构下面上代码: 首先是依赖: <!-
SpringBoot2 整合FreeMarker实现页面静态化示例详解

一.页面静态化 1.动静态页面静态页面即静态网页,指已经装载好内容HTML页面,无需经过请求服务器数据和编译过程,直接加载到客户浏览器上显示出来.通俗的说就是生成独立的HTML页面,且不与服务器进行数据交互. 优缺点描述: 静态网页的内容稳定,页面加载速度极快: 不与服务器交互,提升安全性: 静态网页的交互性差,数据实时性很低: 维度成本高,生成很多HTML页面: 动态页面指跟静态网页相对的一种网页编程技术,页面的内容需要请求服务器获取,在不考虑缓存的情况下,服务接口的数据变化,页面加载的
SpringBoot学习系列之MyBatis Plus整合封装的实例详解

前言 MyBatis-Plus是一款MyBatis的增强工具(简称MP),为简化开发.提高效率,但我们并没有直接使用MP的CRUD接口,而是在原来的基础上封装一层通用代码,单表继承我们的通用代码,实现了单表的基础get.save(插入/更新).list.page.delete接口,使用Vo去接收.传输数据,实体负责与数据库表映射. 这样做的目的是与我们之前的那套jpa保持编码风格上的一致,当我们的通用接口不能满足要求时,应当先考虑使用MP的Service层CRUD接口,然后是Mapper的接口,
MySQL系列多表连接查询92及99语法示例详解教程

目录 1.笛卡尔积现象 2.连接查询知识点概括 1)什么是连接查询? 2)连接查询的分类 3.内连接讲解 1)等值连接:最大特点是,连接条件为等量关系. 2)sql92语法和sql99语法的区别. 3)非等值连接:最大特点是,连接条件为非等量关系. 4)自连接:最大特点是,一张表看作两张表. 4.外连接讲解 1)什么是外连接,和内连接有什么区别? 2)外连接的分类前面两天带着大家换了一个口味,带着大家学习了pyecharts的原理和部分图形制作.今天我们继续回归带你学MySQL系列,带着大家继
Oracle 数据仓库ETL技术之多表插入语句的示例详解

目录创建示例表无条件的 INSERT ALL 语句有条件的 INSERT ALL 语句有条件的 INSERT FIRST 语句多表插入语句的限制大家好!我是只谈技术不剪发的 Tony 老师. ETL(提取.转换.加载)是指从源系统中提取数据并将其放入数据仓库的过程.Oracle 数据库为 ETL 流程提供了丰富的功能,今天我们就给大家介绍一下 Oracle 多表插入语句,也就是INSERT ALL语句. 创建示例表我们首先创建一个源数据表和三个目标表: CREATE TABLE s
ReactQuery系列之数据转换示例详解

目录引言数据转换后端查询函数中 render函数中使用select配置引言欢迎来到“关于react-query我不得不说的一些事情”的第二章节.随着我越来越深入这个库以及他的社区,我发现一些人们经常会问到的问题.最开始,我计划在一篇超长的文章里面把这些都讲清楚,最终我还是决定将他们拆分成一些有意义的主题.今天第一个主题是一个很普遍但是很重要的事情:数据转换. 数据转换我们不得不面对这个问题-大部分的人并没有使用GraphQL.如果你使用了,那么恭喜你,因为你可以请求到你期望的数据
vue整合项目中百度API示例详解

目录官网介绍申请密钥官方示例项目实战创建地图获取经纬度创建Map实例两个坐标点之间的距离查询地点信息 Vue项目中整合百度API获取地理位置的方法组件中使用 vue-baidu-map 百度地图官方vue组件官网介绍百度地图 JavaScript API 是一套由 JavaScript 语言编写的应用程序接口可帮助您在网站中,构建功能丰富交互性强的地图应用支持PC端和移动端,基于浏览器的地图应用开发,且支持HTML5特性的地图开发官网传送门百度地图JavaScri
SSM框架整合JSP中集成easyui前端ui项目开发示例详解

目录前言 EasyUI下载与配置页面美化运行结果总结与问题前言前端的UI框架很多,如bootsrap.layui.easyui等,这些框架提供了大量控件供开发人员使用,我们无需花费太大的精力,使得我们的页面具有专业标准,使用起来也很简单.所有的前端框架使用方式基本上大同小异,以下使用easyui作为UI框架做一演示,个人认为easyui提供的控件比较好看. EasyUI下载与配置使用EasyUI,必须下载其js包,下载官网地址:https://www.jeasyui.cn/ 下载j
微服务架构之服务注册与发现实践示例详解

目录 1 服务注册中心 4种注册中心技术对比 2 Spring Cloud 框架下实现 2.1 Spring Cloud Eureka 2.1.1 创建注册中心 2.1.2 创建客户端 2.2 Spring Cloud Consul 2.2.1 Consul 的优势 2.2.2 Consul的特性 2.2.3 安装Consul注册中心 2.2.4 创建服务提供者 3 总结微服务系列前篇详解微服务架构及其演进史微服务全景架构全面瓦解微服务架构拆分策略详解微服务架构之服务注册与发现功能详解

Clickhouse系列之整合Hive数据仓库示例详解

目录

前言

正文

实战案例

ORC数据格式

Parquet数据格式

TextFile数据格式

总结

相关推荐

随机推荐