Lakehouse数据湖并发控制陷阱分析

2025-03-28 15:26:40

1. 概述

如今数据湖上的事务被认为是 Lakehouse 的一个关键特征。但到目前为止，实际完成了什么？目前有哪些方法？它们在现实世界中的表现如何？这些问题是本博客的重点。

有幸从事过各种数据库项目——RDBMS (Oracle)、NoSQL 键值存储 (Voldemort)、流数据库 (ksqlDB)、闭源实时数据存储，当然还有 Apache Hudi，我可以肯定地说，工作负载的不同深刻地影响了不同数据库中采用的并发控制机制。本博客还将介绍我们如何重新思考 Apache Hudi 数据湖的并发控制机制。

首先，我们直截了当点，RDBMS 数据库提供了最丰富的事务功能集和最广泛的并发控制机制，不同的隔离级别、细粒度锁、死锁检测/避免等其他更多机制，因为它们必须支持行级变更和跨多个表的读取，同时强制执行键约束并维护索引。而NoSQL 存储提供了非常弱的保证，例如仅仅提供最终一致性和简单的行级原子性，以换取更简单的工作负载的更好的扩展性。传统数据仓库基于列存或多或少提供了您在 RDBMS 中可以找到的全套功能，强制执行锁定和键约束，而云数据仓库似乎更多地关注存算分离架构，同时提供更少的隔离级别。作为一个令人惊讶的例子，没有强制执行键约束。

2. 数据湖并发控制中的陷阱

从历史看来，数据湖一直被视为在云存储上读取/写入文件的批处理作业，有趣的是看到大多数新工作如何扩展此视图并使用某种形式的“乐观并发控制”（OCC）来实现文件版本控制。 OCC 作业采用表级锁来检查它们是否影响了重叠文件，如果存在冲突则中止操作，锁有时甚至只是在单个 Apache Spark Driver节点上持有的 JVM 级锁，这对于主要将文件附加到表的旧式批处理作业的轻量级协调来说可能没问题，但不能广泛应用于现代数据湖工作负载。此类方法是在考虑不可变/仅附加数据模型的情况下构建的，这些模型不适用于增量数据处理或键控更新/删除。 OCC 非常乐观地认为真正的冲突永远不会发生。将 OCC 与 RDBMS 或传统数据仓库的完全成熟的事务功能进行比较的开发人员布道是完全错误的，直接引用维基百科——“如果频繁地争用数据资源，重复重启事务的成本会显着损害性能，在这种情况下，其他并发控制方法可能更适合。” 当冲突确实发生时，它们会导致大量资源浪费，因为你有每次尝试运行几个小时后都失败的批处理作业！

想象一下两个写入进程的真实场景：一个每 30 分钟生成一次新数据的摄取写入作业和一个执行 GDPR 的删除作业，需要 2 小时才能完成删除。这些很可能与随机删除重叠文件，并且删除作业几乎可以保证每次都饿死并且无法提交。在数据库方面，将长期运行的事务与乐观混合会导致失望，因为事务越长，它们重叠的可能性就越高。

那么有什么替代方案呢？锁？维基百科还说 - “但是，基于锁（“悲观”）的方法也可能提供较差的性能，因为即使避免了死锁，锁也会极大地限制有效的并发性。”。这就是 Hudi 采用不同方法的地方，我们认为这种方法更适合现代数据湖事务，这些事务通常是长期运行的，甚至是连续的。与数据库的标准读/写相比，数据湖工作负载与高吞吐量流处理作业共享更多特征，这就是我们借鉴的地方。在流处理中，事件被序列化为单个有序日志，避免任何锁/并发瓶颈，用户可以每秒连续处理数百万个事件。Hudi 在 Hudi 时间线上实现了一个文件级、基于日志的并发控制协议，而该协议又依赖于对云存储的最低限度的原子写入。通过将事件日志构建为进程间协调的核心部分，Hudi 能够提供一些灵活的部署模型，与仅跟踪表快照的纯 OCC 方法相比，这些模型提供更高的并发性。

3. 模型 1：单写入，内联表服务

并发控制的最简单形式就是完全没有并发。数据湖表通常在其上运行公共服务以确保效率，从旧版本和日志中回收存储空间、合并文件（Hudi 中的Clustering）、合并增量（Hudi 中的Compaction）等等。 Hudi 可以简单地消除对并发控制的需求，并通过支持这些开箱即用的表服务并在每次写入表后内联运行来最大化吞吐量。

执行计划是幂等的，持久化至时间线并从故障中自动恢复。对于大多数简单的用例，这意味着只需写入就足以获得一个不需要并发控制的管理良好的表。

4. 模型2：单写入，异步表服务

我们上面的删除/摄取示例并不是那么简单。虽然摄取/写入可能只是更新表上的最后 N 个分区，但删除甚至可能跨越整个表，将它们混合在同一个工作负载中可能会大大影响摄取延迟，因此Hudi 提供了以异步方式运行表服务的选项，其中大部分繁重的工作（例如通过压缩服务实际重写列数据）是异步完成的，消除了任何重复的浪费重试，同时还使用Clustering技术。因此单个写入可以同时使用常规更新和 GDPR 删除并将它们序列化到日志中。鉴于 Hudi 具有记录级索引并且 avro 日志写入要便宜得多（与写入 parquet 相比，后者可能要贵 10 倍或更高），摄取延迟可以持续，同时享受出色的可回溯性。事实上我们能够在 Uber 将这个模型扩展到 100 PB数据规模，通过将所有删除和更新排序到同一个源 Apache Kafka 主题中，并发控制不仅仅是锁，Hudi 无需任何外部锁即可完成所有这一切。

5. 模型3：多写入

但是并不总是可以将删除序列化到相同的写入流中，或者需要基于 sql 的删除。对于多个分布式进程，某种形式的锁是不可避免的，但就像真正的数据库一样，Hudi 的并发模型足够智能，可以将实际写入表的内容与管理或优化表的表服务区分开来。 Hudi 提供了类似的跨多个写入器的乐观并发控制，但表服务仍然可以完全无锁和异步地执行。这意味着删除作业只能对删除进行编码，摄取作业可以记录更新，而压缩服务再次将更新/删除应用于基本文件。尽管删除作业和摄取作业可以像我们上面提到的那样相互竞争和饿死，但它们的运行时间要低得多，浪费也大大降低，因为压缩完成了parquet/列数据写入的繁重工作。

综上所述，在这个基础上我们还有很多方法可以改进。

首先，Hudi 已经实现了一种标记机制，可以跟踪作为活动写入事务一部分的所有文件，以及一种可以跟踪表的活动写入者的心跳机制。这可以由其他活动事务/写入器直接使用来检测其他写入器正在做什么，如果检测到冲突，则尽早中止，从而更快地将集群资源返回给其他作业。

虽然在需要可序列化快照隔离时乐观并发控制很有吸引力，但它既不是最佳方法，也不是处理写入者之间并发性的唯一方法。我们计划使用 CRDT 和广泛采用的流处理概念，通过我们的日志合并 API 实现完全无锁的并发控制，这已经被证明可以为数据湖维持巨大的连续写入量。

谈到键约束，Hudi 是当今唯一确保唯一键约束的湖事务层，但仅限于表的记录键。我们将寻求以更通用的形式将此功能扩展到非主键字段，并使用上述较新的并发模型。

最后，要使数据湖成功转型为Lakehouse，我们必须从“Hadoop 仓库”愿景的失败中吸取教训，它与新的“Lakehouse”愿景有着相似的目标。设计人员没有密切关注与数据仓库相关的缺失技术差距，并且对实际软件产生了不切实际的期望。随着事务和数据库功能最终成为数据湖的主流，我们必须应用这些经验教训并对当前的缺点保持坦率。如果您正在构建一个 Lakehouse，我希望这篇文章能鼓励您仔细考虑围绕并发控制的各种操作和效率方面。

https://hudi.apache.org/blog/2021/12/16/lakehouse-concurrency-control-are-we-too-optimistic

以上就是Lakehouse数据湖并发控制陷阱分析的详细内容，更多关于Lakehouse数据湖并发控制的资料请关注我们其它相关文章！

MySQL的多版本并发控制MVCC的实现

目录什么是MVCC MVCC的实现 MVCC 有没有解决幻读? 什么是MVCC MVCC就是多版本并发控制. MySQL的事务型存储引擎通过多版本并发控制(MVCC)来提升并发性能. 可以认为MVCC是行级锁的一个变种,但是它在大多数情况下避免了加锁操作,同时实现非阻塞的读操作,因此开销更低. MVCC是通过保存数据在某个时间点的快照来实现的,核心思想就是保存数据的历史版本,通过对数据行的多个版本管理来实现数据库的并发控制. 这样我们就可以通过比较版本号决定数据是否显示出来,读取数据的时候不需
MySQL多版本并发控制MVCC底层原理解析

目录 1 事务并发中遇到的问题 1.1 脏读 1.2 不可重复读 1.3 幻读 2 隔离级别 3 版本链 4 ReadView 4.1 ReadView 定义 4.2 访问控制 4.3 再谈隔离 4.3.1 READ COMMITTED(读已提交) 4.3.2 REPEATABLE READ(可重读) 5 幻读 6 总结 1 事务并发中遇到的问题 1.1 脏读当一个事务读取到了另外一个事务修改但未提交的数据,被称为脏读. 1.2 不可重复读当事务内相同的记录被检索两次,且两次得到的结果不同时
MySQL多版本并发控制MVCC深入学习

MVCC MVCC(Multi-Version Concurrency Control),即多版本并发控制.是 innodb 实现事务并发与回滚的重要功能.锁机制可以控制并发操作,但是其系统开销较大,而MVCC可以在大多数情况下代替行级锁,使用MVCC,能降低其系统开销. 具体实现是在数据库的每一行中,额外添加三个字段: DB_TRX_ID : 记录插入或更新该行的最后一个事务的事务ID DB_ROLL_PTR : 指向改行对应undolog 的指针 DB_ROW_ID : 单调递增的ID,他就
MySQL系列之十 MySQL事务隔离实现并发控制

目录一.并发访问控制二.事务Transactions 1.事务遵循ACID原则: 2.事务的生命周期 3.事务的隔离级别 4.死锁一.并发访问控制实现的并发访问的控制技术是基于锁: 锁分为表级锁和行级锁,MyISAM存储引擎不支持行级锁:InnoDB支持表级锁和行级锁: 锁的分类有读锁和写锁,读锁也被称为共享锁,加读锁的时候其他的人可以读:写锁也称为独占锁或排它锁,一个写锁会阻塞其他读操作和写操作: 锁还分为隐式锁和显式锁,隐式锁由存储引擎自行管理,显式锁是用户手动添加锁: 锁策略:在锁
Lakehouse数据湖并发控制陷阱分析

目录 1. 概述 2. 数据湖并发控制中的陷阱 3. 模型 1:单写入,内联表服务 4. 模型2:单写入,异步表服务 5. 模型3:多写入 1. 概述如今数据湖上的事务被认为是 Lakehouse 的一个关键特征. 但到目前为止,实际完成了什么? 目前有哪些方法? 它们在现实世界中的表现如何? 这些问题是本博客的重点. 有幸从事过各种数据库项目——RDBMS (Oracle).NoSQL 键值存储 (Voldemort).流数据库 (ksqlDB).闭源实时数据存储,当然还有 Apache H
Spring事物基础知识及AOP相关陷阱分析

目录一.事务的定义二.事务的属性三.Spring 事务的隔离级别 3.1 隔离级别引出的问题 3.1.1 脏读 3.1.2 不可重复读 3.1.3 幻读 3.2 隔离级别四.Spring 事务的传播机制五.Spring 事务的应用(声明式) 5.1 事务只读 5.1.1 应用场景 5.1.2 使用方式 5.2 事务回滚 5.2.1 使用方式 5.3 事务超时 5.3.1 使用方式 5.4 事务传播机制的使用方式 5.5 事务隔离机制的使用方式六.Spring 声明式事务的 AOP 陷
基于Apache Hudi在Google云构建数据湖平台的思路详解

自从计算机出现以来,我们一直在尝试寻找计算机存储一些信息的方法,存储在计算机上的信息(也称为数据)有多种形式,数据变得如此重要,以至于信息现在已成为触手可及的商品.多年来数据以多种方式存储在计算机中,包括数据库.blob存储和其他方法,为了进行有效的业务分析,必须对现代应用程序创建的数据进行处理和分析,并且产生的数据量非常巨大!有效地存储数PB数据并拥有必要的工具来查询它以便使用它至关重要,只有这样对该数据的分析才能产生有意义的结果.大数据是一门处理分析方法.有条不紊地从中提取信息或以其他方式处
PHP面向对象之领域模型+数据映射器实例(分析)

这里要说明一下因为本人比较懒博客中相关文章的内容更多的是对<深入PHP面向对象.模式与实践>一书中代码的整理和简单注解方便自己日后复习和参考, 对相关内容感兴趣的初学的朋友建议请先阅读原文.此处的内容只能当成一种学习的补充和参考.谢谢! 因原书中领域模型+数据映射器的示例代码是连贯在一起的所以这里就整理在一起了. 简单介绍一下我的看法,从数据库操作的角度看领域模型主要是操作数据表中的单条记录的而数据映射器是操作整个数据表的数据的. 按原文的解释数据映射器是一个负责将数据库数据映射到对象的
jQuery 获取跨域XML(RSS)数据的相关总结分析

前段时间项目,需要前端JS获取跨域XML(RSS),最先打算使用jQuery.ajax方法获取,但是在ie9以下,提示"拒绝访问的" 略尴尬,网上查找了相关资料总结了以下几种方法: 一.google的jGFeed:相信很多同学对这个应该不陌生,使用也相对简单: 源码: (function($){ $.extend({ jGFeed : function(url, fnk, num, key){ // Make sure url to get is defined if(url == n
Python数据可视化正态分布简单分析及实现代码

Python说来简单也简单,但是也不简单,尤其是再跟高数结合起来的时候... 正态分布(Normaldistribution),也称"常态分布",又名高斯分布(Gaussiandistribution),最早由A.棣莫弗在求二项分布的渐近公式中得到.C.F.高斯在研究测量误差时从另一个角度导出了它.P.S.拉普拉斯和高斯研究了它的性质.是一个在数学.物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力. 正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人
ajax获取json数据为undefined原因分析

Asynchronous JavaScript and XML (Ajax ) 是驱动新一代 Web 站点(流行术语为 Web 2.0 站点)的关键技术.Ajax 允许在不干扰 Web 应用程序的显示和行为的情况下在后台进行数据检索.使用 XMLHttpRequest 函数获取数据,它是一种 API,允许客户端 JavaScript 通过 HTTP 连接到远程服务器.Ajax 也是许多 mashup 的驱动力,它可将来自多个地方的内容集成为单一 Web 应用程序. 一般处理服务器传来的json值
Tensorflow中批量读取数据的案列分析及TFRecord文件的打包与读取

单一数据读取方式: 第一种:slice_input_producer() # 返回值可以直接通过 Session.run([images, labels])查看,且第一个参数必须放在列表中,如[...] [images, labels] = tf.train.slice_input_producer([images, labels], num_epochs=None, shuffle=True) 第二种:string_input_producer() # 需要定义文件读取器,然后通过读取器中的
Python数据标准化的实例分析

说明 1.将原始数据转换为均值为0,标准差在1范围内. 2.对标准化而言:如果出现异常点,由于有一定数据量,少量异常点对平均值的影响不大,因此方差变化不大. 实例 def stand_demo(): """ 标准化 :return: """ # 1. 获取数据 data = pd.read_csv('dating.txt') data = data.iloc[:, :3] print('data:\n', data) # 2.实例化一个转换器类
python数据可视化自制职位分析生成岗位分析数据报表

目录前言 1. 核心功能设计可视化展示岗位表格数据分析岗位薪资情况分析岗位公司情况数据分析导出 2. GUI设计与实现 3. 功能实现 3.1 职位数据爬虫 3.2 数据预处理 3.3 岗位数据展示 3.4 薪资图表可视化 3.5 岗位公司情况统计 3.6 预览保存前言为什么要进行职位分析?职位分析是人力资源开发和管理的基础与核心,是企业人力资源规划.招聘.培训.薪酬制定.绩效评估.考核激励等各项人力资源管理工作的依据.其次我们可以根据不同岗位的职位分析,可视化展示各岗位的数据分析