Flink实践Savepoint使用示例详解

2025-02-03 02:56:12

一、背景

什么是 savepoint，为什么要使用 savepoint ？

保障 flink 作业在配置迭代、flink 版本升级、蓝绿部署中的数据一致性，提高容错、降低恢复时间；

在此之前引入几个概念：

Snapshot 状态快照

Flink 通过状态快照实现容错处理

Flink 中的状态： keyed state, operator state ..
Flink 中的状态后端：A. 状态数据如何存？B. 运行时存在哪里？C. 状态快照保存在哪？

注1：自 1.13 版本之后，设置 Working State 和设置 Snapshot State 拆离成了两个接口，便于读者更易于理解；

StateBackend

CheckpointStorage

注2：一般默认使用 FsStateBackend，运行时状态放在堆中保障性能，快照备份时数据存于 Hdfs 保障容错性；当业务有大状态的 flink 作业存在时，可以通过配置化的方式将用户作业的状态后端设置为 RocksDBSateBackend。

分布式快照

Checkpoint – a snapshot taken automatically by Flink for the purpose of being able to recover from faults. Checkpoints can be incremental, and are optimized for being restored quickly.

Alignment checkpoint

Unaligment checkpoint

未对齐的 checkpoint 确保障碍物尽快到达接收器。

适用于至少有一条缓慢移动的数据路径的应用程序，避免对齐时间过长。然而，
会增加了额外的输入/输出压力，会造成 checkpoint size 的增加，当状态后后端 IO 有瓶颈时，不合适；

注：一般默认使用 Alignment checkpoint；当出现被压时，一般优先采用

1. 优化逻辑 2. 增加并发能力的方式进行处理；

Checkpoint & Savepoint

Checkpoint 使 Flink 的状态具有良好的容错性，通过 checkpoint 机制，Flink 可以对作业的状态和计算位置进行恢复。

Savepoint 是依据 Flink checkpointing 机制所创建的流作业执行状态的一致镜像；

Checkpoint 的主要目的是为意外失败的作业提供恢复机制(如 tm/jm 进程挂了)。
Checkpoint 的生命周期由 Flink 管理，即 Flink 创建，管理和删除 Checkpoint - 无需用户交互。
Savepoint 由用户创建，拥有和删除。他们的用例是计划的，手动备份和恢复。
Savepoint 应用场景，升级 Flink 版本，调整用户逻辑，改变并行度，以及进行红蓝部署等。 Savepoint 更多地关注可移植性和对前面提到的作业更改的支持。

除去这些概念上的差异，Checkpoint 和 Savepoint 的当前实现基本上使用相同的代码并生成相同的格式（rocksDB 增量 checkpoint 除外，未来可能有更多类似的实现）

二、Flink on yarn 如何使用 savepoint

触发 savepoint 保留到 hdfs, 在重新调度作业时，提供给用户选择即可。

关键点：执行 savepoint 需要指定 jobId，因此在设计数据平台的元数据时，需要保留 jobId 数据。

使用 YARN 触发 Savepoint #
$ bin/flink savepoint :jobId [:targetDirectory] -yid :yarnAppId
这将触发 ID 为 :jobId 和 YARN 应用程序 ID :yarnAppId 的作业的 Savepoint，并返回创建的 Savepoint 的路径。
使用 Savepoint 取消作业 #
$ bin/flink cancel -s [:targetDirectory] :jobId
这将自动触发 ID 为 :jobid 的作业的 Savepoint，并取消该作业。此外，你可以指定一个目标文件系统目录来存储 Savepoint 。该目录需要能被 JobManager(s) 和 TaskManager(s) 访问。
从 Savepoint 恢复 #
$ bin/flink run -s :savepointPath [:runArgs]
这将提交作业并指定要从中恢复的 Savepoint 。 你可以给出 Savepoint 目录或 _metadata 文件的路径。
跳过无法映射的状态恢复 #
默认情况下，resume 操作将尝试将 Savepoint 的所有状态映射回你要还原的程序。 如果删除了运算符，则可以通过 --allowNonRestoredState（short：-n）选项跳过无法映射到新程序的状态：
$ bin/flink run -s :savepointPath -n [:runArgs]
删除 Savepoint #
$ bin/flink savepoint -d :savepointPath
这将删除存储在 :savepointPath 中的 Savepoint。

附录：一致性语义

确保精确一次（exactly once）

当流处理应用程序发生错误的时候，结果可能会产生丢失或者重复。Flink 根据你为应用程序和集群的配置，可以产生以下结果：

Flink 不会从快照中进行恢复（at most once）
没有任何丢失，但是你可能会得到重复冗余的结果（at least once）
没有丢失或冗余重复（exactly once）

Flink 通过回退和重新发送 source 数据流从故障中恢复，当理想情况被描述为精确一次时，这并不意味着每个事件都将被精确一次处理。相反，这意味着每一个事件都会影响 Flink 管理的状态精确一次。

Barrier 只有在需要提供精确一次的语义保证时需要进行对齐（Barrier alignment）。如果不需要这种语义，可以通过配置 CheckpointingMode.AT_LEAST_ONCE 关闭 Barrier 对齐来提高性能。

端到端精确一次

为了实现端到端的精确一次，以便 sources 中的每个事件都仅精确一次对 sinks 生效，必须满足以下条件：

sources 必须是可重放的，并且
sinks 必须是事务性的（或幂等的）

以上就是Flink实践Savepoint使用示例详解的详细内容，更多关于Flink Savepoint使用的资料请关注我们其它相关文章！

Flink支持哪些数据类型?

一.支持的数据类型 Flink 对可以在 DataSet 或 DataStream 中的元素类型进行了一些限制.这样做的原因是系统会分析类型以确定有效的执行策略. 1.Java Tuple 和 Scala Case类: 2.Java POJO: 3.基本类型: 4.通用类: 5.值: 6.Hadoop Writables; 7.特殊类型二.Flink之Tuple类型 Tuple类型 Tuple 是flink 一个很特殊的类型 (元组类型),是一个抽象类,共26个Tuple子类继承Tuple
Flink流处理引擎零基础速通之数据的抽取篇

目录一.CDC 二.常见CDC的比较三.Flink CDC 四.Flink CDC支持的数据库五.阿里实现的FlinkCDC使用示例依赖引入基于table 基于sql 总结一.CDC CDC (Change Data Capture) ,在广义的概念上,只要能捕获数据变更的技术,都可以称为 CDC .但通常我们说的CDC 技术主要面向数据库(包括常见的mysql,Oracle, MongoDB等)的变更,是一种用于捕获数据库中数据变更的技术. 二.常见CDC的比较常见的主要包括Fl
Flink入门级应用域名处理示例

目录概述算子 FlatMap KeyBy Reduce 连接socket测试连接kafka 正式测试打包上传服务器概述最近做了一个小任务,要使用Flink处理域名数据,在4GB的域名文档中求出每个域名的顶级域名,最后输出每个顶级域名下的前10个子级域名.一个比较简单的入门级Flink应用,代码很容易写,主要用到的算子有FlatMap.KeyBy.Reduce.但是由于Maven打包问题,总是提示找不到入口类,卡了好久,最后也是成功解决了. 主体代码如下: public class
解析Flink内核原理与实现核心抽象

目录一.环境对象 1.1 执行环境 StreamExecutionEnvironment LocalStreamEnvironment RemoteStreamEnvironment StreamContextEnvironment StreamPlanEnvironment ScalaShellStreamEnvironment 1.2 运行时环境 RuntimeEnvironment SavepointEnvironment 1.3 运行时上下文 StreamingRuntimeConte
Flink实践Savepoint使用示例详解

目录一.背景 Snapshot 状态快照分布式快照 Checkpoint & Savepoint 二.Flink on yarn 如何使用 savepoint 附录:一致性语义确保精确一次(exactly once) 端到端精确一次一.背景什么是 savepoint,为什么要使用 savepoint ? 保障 flink 作业在配置迭代.flink 版本升级.蓝绿部署中的数据一致性,提高容错.降低恢复时间: 在此之前引入几个概念: Snapshot 状态快照 Flink 通过状态快照
微服务架构之服务注册与发现实践示例详解

目录 1 服务注册中心 4种注册中心技术对比 2 Spring Cloud 框架下实现 2.1 Spring Cloud Eureka 2.1.1 创建注册中心 2.1.2 创建客户端 2.2 Spring Cloud Consul 2.2.1 Consul 的优势 2.2.2 Consul的特性 2.2.3 安装Consul注册中心 2.2.4 创建服务提供者 3 总结微服务系列前篇详解微服务架构及其演进史微服务全景架构全面瓦解微服务架构拆分策略详解微服务架构之服务注册与发现功能详解
TDesign在vitest的实践示例详解

目录起源痛点与现状 vitest 迁移配置文件改造开发环境集成测试 ssr 环境 csr 环境配置文件兼容性结果 CI测试速度提升更清爽的日志信息起源在 tdesign-vue-next 的 CI 流程中,单元测试模块的执行效率太低,每次在单元测试这个环节都需要花费 6m 以上.加上依赖按照,lint 检查等环节,需要花费 8m 以上. 加上之前在单元测试这一块只是简单的处理了一下,对开发者提交的组件也没有相应的要求,只是让它能跑起来就好.另一方面单元测试目前是 TD 发布
react后台系统最佳实践示例详解

目录一.中后台系统的技术栈选型 1. 要做什么 2. 要求 3. 技术栈怎么选二.hooks时代状态管理库的选型 context redux recoil zustand MobX 三.hooks的使用问题与解决方案总结一.中后台系统的技术栈选型本文主要讲三块内容:中后台系统的技术栈选型.hooks时代状态管理库的选型以及hooks的使用问题与解决方案. 1. 要做什么我们的目标是搭建一个适用于公司内部中后台系统的前端项目最佳实践. 2. 要求由于业务需求比较多,一名开发人员需要负
Gradle 依赖切换源码实践示例详解

目录引言 1.一般的修改办法 2.通过 Gradle 脚本动态修改依赖 2.1 配置文件和工作流程抽象 2.2 为项目动态添加子工程 2.3 使用子工程替换依赖 2.4 注意事项总结引言最近,因为开发的时候经改动依赖的库,所以,我想对 Gradle 脚本做一个调整,用来动态地将依赖替换为源码.这里以 android-mvvm-and-architecture 这个工程为例.该工程以依赖的形式引用了我的另一个工程 AndroidUtils.在之前,当我需要对 AndroidUtils 这个
Java数组的声明与创建示例详解

今天在刷Java题的时候,写惯了C++发现忘记了Java数组的操作,遂把以前写的文章发出来温习一下. 首先,数组有几种创建方式? Java程序中的数组必须先进行初始化才可以使用,所谓初始化,就是为数组对象的元素分配内存空间,并为每个数组元素指定初始值,而在Java中,数组是静态的,数组一旦初始化,长度便已经确定,不能再随意更改. 声明数组变量首先必须声明数组变量,才能在程序中使用数组.下面是声明数组变量的语法: dataType[] arrayRefVar; // 首选的方法或 dataTy
R语言时间序列TAR阈值自回归模型示例详解

为了方便起见,这些模型通常简称为TAR模型.这些模型捕获了线性时间序列模型无法捕获的行为,例如周期,幅度相关的频率和跳跃现象.Tong和Lim(1980)使用阈值模型表明,该模型能够发现黑子数据出现的不对称周期性行为. 一阶TAR模型的示例: σ是噪声标准偏差,Yt-1是阈值变量,r是阈值参数, {et}是具有零均值和单位方差的iid随机变量序列. 每个线性子模型都称为一个机制.上面是两个机制的模型. 考虑以下简单的一阶TAR模型: #低机制参数 i1 = 0.3 p1 = 0.5 s1 = 1
Python数学建模StatsModels统计回归之线性回归示例详解

目录 1.背景知识 1.1 插值.拟合.回归和预测 1.2 线性回归 2.Statsmodels 进行线性回归 2.1 导入工具包 2.2 导入样本数据 2.3 建模与拟合 2.4 拟合和统计结果的输出 3.一元线性回归 3.1 一元线性回归 Python 程序: 3.2 一元线性回归程序运行结果: 4.多元线性回归 4.1 多元线性回归 Python 程序: 4.2 多元线性回归程序运行结果: 5.附录:回归结果详细说明 1.背景知识 1.1 插值.拟合.回归和预测插值.拟合.回归和预测
TensorFlow卷积神经网络AlexNet实现示例详解

2012年,Hinton的学生Alex Krizhevsky提出了深度卷积神经网络模型AlexNet,它可以算是LeNet的一种更深更宽的版本.AlexNet以显著的优势赢得了竞争激烈的ILSVRC 2012比赛,top-5的错误率降低至了16.4%,远远领先第二名的26.2%的成绩.AlexNet的出现意义非常重大,它证明了CNN在复杂模型下的有效性,而且使用GPU使得训练在可接受的时间范围内得到结果,让CNN和GPU都大火了一把.AlexNet可以说是神经网络在低谷期后的第一次发声,确立了深
Gin与Mysql实现简单Restful风格API实战示例详解

目录 It works main.go 编译运行数据库 CURD 增删改查增查查询列表 Query 查询单条记录 QueryRow 改删组织代码封装模型方法 Handler函数组织项目数据库处理数据model封装 handler 路由分组路由 app入口总结我们已经了解了Golang的Gin框架.对于Webservice服务,restful风格几乎一统天下.Gin也天然的支持restful.下面就使用gin写一个简单的服务,麻雀虽小,五脏俱全.我们先以一个单文件开始,然