Postgresql中xlog生成和清理逻辑操作

0 前言

1、2部分是对XLOG生成和清理逻辑的分析,XLOG暴涨的处理直接看第3部分。

1 WAL归档

# 在自动的WAL检查点之间的日志文件段的最大数量
checkpoint_segments =
# 在自动WAL检查点之间的最长时间
checkpoint_timeout =
# 缓解io压力
checkpoint_completion_target =
# 日志文件段的保存最小数量,为了备库保留更多段
wal_keep_segments =
# 已完成的WAL段通过archive_command发送到归档存储
archive_mode =
# 强制timeout切换到新的wal段文件
archive_timeout =
max_wal_size =
min_wal_size =

1.1 不开启归档时

文件数量受下面几个参数控制,通常不超过

(2 + checkpoint_completion_target) * checkpoint_segments + 1

checkpoint_segments + wal_keep_segments + 1个文件。

如果一个旧段文件不再需要了会重命名然后继续覆盖使用,如果由于短期的日志输出高峰导致了超过

3 * checkpoint_segments + 1个文件,直接删除文件。

1.2 开启归档时

文件数量:删除归档成功的段文件

抽象来看一个运行的PG生成一个无限长的WAL日志序列。每段16M,这些段文件的名字是数值命名的,反映在WAL序列中的位置。在不用WAL归档的时候,系统通常只是创建几个段文件然后循环使用,方法是把不再使用的段文件重命名为更高的段编号。

当且仅当归档命令成功时,归档命令返回零。 在得到一个零值结果之后,PostgreSQL将假设该WAL段文件已经成功归档,稍后将删除段文件。一个非零值告诉PostgreSQL该文件没有被归档,会周期性的重试直到成功。

2 PG源码分析

2.1 删除逻辑

触发删除动作

RemoveOldXlogFiles
> CreateCheckPoint
> CreateRestartPoint

wal_keep_segments判断(调用这个函数修改_logSegNo,然后再传入RemoveOldXlogFiles)

static void
KeepLogSeg(XLogRecPtr recptr, XLogSegNo *logSegNo)
{
 XLogSegNo segno;
 XLogRecPtr keep;
 XLByteToSeg(recptr, segno);
 keep = XLogGetReplicationSlotMinimumLSN();
 /* compute limit for wal_keep_segments first */
 if (wal_keep_segments > 0)
 {
 /* avoid underflow, don't go below 1 */
 if (segno <= wal_keep_segments)
  segno = 1;
 else
  segno = segno - wal_keep_segments;
 }
 /* then check whether slots limit removal further */
 if (max_replication_slots > 0 && keep != InvalidXLogRecPtr)
 {
 XLogSegNo slotSegNo;
 XLByteToSeg(keep, slotSegNo);
 if (slotSegNo <= 0)
  segno = 1;
 else if (slotSegNo < segno)
  segno = slotSegNo;
 }
 /* don't delete WAL segments newer than the calculated segment */
 if (segno < *logSegNo)
 *logSegNo = segno;
}

删除逻辑

static void
RemoveOldXlogFiles(XLogSegNo segno, XLogRecPtr endptr)
{
  ...
  ...
 while ((xlde = ReadDir(xldir, XLOGDIR)) != NULL)
 {
 /* Ignore files that are not XLOG segments */
 if (strlen(xlde->d_name) != 24 ||
  strspn(xlde->d_name, "0123456789ABCDEF") != 24)
  continue;
 /*
  * We ignore the timeline part of the XLOG segment identifiers in
  * deciding whether a segment is still needed. This ensures that we
  * won't prematurely remove a segment from a parent timeline. We could
  * probably be a little more proactive about removing segments of
  * non-parent timelines, but that would be a whole lot more
  * complicated.
  *
  * We use the alphanumeric sorting property of the filenames to decide
  * which ones are earlier than the lastoff segment.
  */
 if (strcmp(xlde->d_name + 8, lastoff + 8) <= 0)
 {
  if (XLogArchiveCheckDone(xlde->d_name))
        # 归档关闭返回真
        # 存在done文件返回真
        # 存在.ready返回假
        # recheck存在done文件返回真
        # 重建.ready文件返回假
  {
  /* Update the last removed location in shared memory first */
  UpdateLastRemovedPtr(xlde->d_name);

        # 回收 或者 直接删除,清理.done和.ready文件
  RemoveXlogFile(xlde->d_name, endptr);
  }
 }
 }
  ...
  ...
}

2.2 归档逻辑

static void
pgarch_ArchiverCopyLoop(void)
{
 char xlog[MAX_XFN_CHARS + 1];

  # 拿到最老那个没有被归档的xlog文件名
 while (pgarch_readyXlog(xlog))
 {
 int  failures = 0;
 for (;;)
 {
  /*
  * Do not initiate any more archive commands after receiving
  * SIGTERM, nor after the postmaster has died unexpectedly. The
  * first condition is to try to keep from having init SIGKILL the
  * command, and the second is to avoid conflicts with another
  * archiver spawned by a newer postmaster.
  */
  if (got_SIGTERM || !PostmasterIsAlive())
  return;
  /*
  * Check for config update. This is so that we'll adopt a new
  * setting for archive_command as soon as possible, even if there
  * is a backlog of files to be archived.
  */
  if (got_SIGHUP)
  {
  got_SIGHUP = false;
  ProcessConfigFile(PGC_SIGHUP);
  }
  # archive_command没设的话不再执行
      # 我们的command没有设置,走的是这个分支
  if (!XLogArchiveCommandSet())
  {
  /*
   * Change WARNING to DEBUG1, since we will left archive_command empty to
   * let external tools to manage archive
   */
  ereport(DEBUG1,
   (errmsg("archive_mode enabled, yet archive_command is not set")));
  return;
  }
      # 执行归档命令!
  if (pgarch_archiveXlog(xlog))
  {
  # 成功了,把.ready改名为.done
  pgarch_archiveDone(xlog);
  /*
   * Tell the collector about the WAL file that we successfully
   * archived
   */
  pgstat_send_archiver(xlog, false);
  break;  /* out of inner retry loop */
  }
  else
  {
  /*
   * Tell the collector about the WAL file that we failed to
   * archive
   */
  pgstat_send_archiver(xlog, true);
  if (++failures >= NUM_ARCHIVE_RETRIES)
  {
   ereport(WARNING,
    (errmsg("archiving transaction log file \"%s\" failed too many times, will try again later",
     xlog)));
   return; /* give up archiving for now */
  }
  pg_usleep(1000000L); /* wait a bit before retrying */
  }
 }
 }
}

2.3 ready生成逻辑

static void
XLogWrite(XLogwrtRqst WriteRqst, bool flexible)
{
...
      if (finishing_seg)
  {
  issue_xlog_fsync(openLogFile, openLogSegNo);
  /* signal that we need to wakeup walsenders later */
  WalSndWakeupRequest();
  LogwrtResult.Flush = LogwrtResult.Write; /* end of page */
        # 归档打开 && wal_level >= archive
  if (XLogArchivingActive())
          # 生成ready文件
   XLogArchiveNotifySeg(openLogSegNo);
  XLogCtl->lastSegSwitchTime = (pg_time_t) time(NULL);
...

2.4 总结

ready文件只要满足archive_mode=on和wal_lever>=archive,就总会生成(XLogWrite函数调用生成)

因为archive_command设置空,所以ready文件的消费完全由外部程序控制

done文件的处理由PG完成,两个地方会触发done文件处理,检查点和重启点

处理多少done文件受wal_keep_segments和replication_slot控制(KeepLogSeg函数)

3 WAL段累积的原因(长求总?)

注意:无论如何注意不要手动删除xlog文件

注意:checkpoint产生的日志回不立即生成ready文件,是在下一个xlog后一块生成的

3.1 ReplicationSlot

打开流了复制槽

-- 流复制插槽
-- 如果restart_lsn和当前XLOG相差非常大的字节数, 需要排查slot的订阅者是否能正常接收XLOG,
-- 或者订阅者是否正常. 长时间不将slot的数据取走, pg_xlog目录可能会撑爆
select pg_xlog_location_diff(pg_current_xlog_location(),restart_lsn), *
from pg_replication_slots;

删除

select pg_drop_replication_slot('xxx');

删除后PG会在下一个checkpoint清理xlog

3.2 较大的wal_keep_segments

检查参数配置,注意打开这个参数会使xlog和ready有一定延迟

3.3 回收出现问题

如果不使用PG自动回收机制,数据库依赖外部程序修改.ready文件,需要检测回收进程

(archive_mode=on archive_command='')

3.4 检查点间隔过长

检查参数配置

以上为个人经验,希望能给大家一个参考,也希望大家多多支持我们。如有错误或未考虑完全的地方,望不吝赐教。

(0)

相关推荐

  • postgresql之使用lsn 获取 wal文件名的实例

    10.0及以后版本: pg_walfile_name() 用法: postgres=# select pg_current_wal_lsn(), pg_walfile_name(pg_current_wal_lsn()), pg_walfile_name_offset(pg_current_wal_lsn()); pg_current_wal_lsn | pg_walfile_name | pg_walfile_name_offset --------------------+---------

  • 开源数据库postgreSQL13在麒麟v10sp1源码安装过程详解

    一.中标麒麟v10sp1在飞腾2000+系统安装略 二.系统依赖包安装 [root@ft2000db opt]# yum install bzip* [root@ft2000db opt]# nkvers ############## Kylin Linux Version ################# Release: Kylin Linux Advanced Server release V10 (Tercel) Kernel: 4.19.90-17.ky10.aarch64 Buil

  • postgresql 如何查看pg_wal目录下xlog文件总大小

    当然如果你登录服务器所在主机,直接在$PGDAT/pg_wal下执行: du -h --max-depth=1 ./ 可以得到. #du -h --max-depth=1 ./ 4.0K ./archive_status 193M ./ 如果通过客户端怎么做呢? 答案:pg_ls_waldir()函数.pg_ls_waldir()是pg 10.0引入的函数,可以输出数据库WAL目录的所有文件. postgres=# select sum(size) from pg_ls_waldir(); su

  • postgresql初始化之initdb的使用详解

    initdb 官网 initdb创建了一个新的PostgreSQL数据库集群.数据库集群是由单个服务器实例管理的数据库集合. 创建数据库集群包括数据库所在的目录.生成共享目录表(属于整个集群而不是任何特定数据库的表)以及创建template1和postgres数据库.稍后创建新数据库时,将复制template1数据库中的所有内容(因此,template1中安装的任何内容都会自动复制到以后创建的每个数据库中.),postgres数据库是供用户.实例程序和第三方应用程序使用的默认数据库. 尽管ini

  • Postgresql去重函数distinct的用法说明

    在项目中我们常会对数据进行去重处理,有时候会用in或者EXISTS函数.或者通过group by也是可以实现查重 不过Postgresql还有自带去重函数:distinct 下面是distinct 的实例: 1.创建表:user CREATE TABLE `user` ( `name` varchar(30) DEFAULT NULL, `age` int(11) DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=utf8; INSERT INTO `us

  • 修改postgresql存储目录的操作方式

    修改postgresql存储目录: sudo rsync -av /var/opt/gitlab/postgresql /data/gitlab/ 修改 /etc/gitlab/gitlab.rb postgresql['data_dir'] = "/data/gitlab/postgresql/data" postgresql['dir'] = "/data/gitlab/postgresql" postgresql['home'] = "/data/g

  • postgresql 12版本搭建及主备部署操作

    postgresql 12版本主备部署 环境搭建 centos 7+ postgresql 12.0 # 网络检查 ping -c2 baidu.com #关闭防火墙,selinux systemctl stop firewalld && sudo systemctl disable firewalld sed -ri s/SELINUX=enforcing/SELINUX=disabled/g /etc/selinux/config setenforce 0 ### 配置阿里云yum源

  • postgresql运维之远程迁移操作

    背景:高可用架构版本. 主备分别部署在机器A和B上,现在要将其分别迁移到机器C和D上. 思路: 1.首先根据源实例的备份(云盘上可用snapshot),创建一个mirror实例,mirror包含两个节点,分别部署在C和D上. 2.在源实例主节点hba.conf中增加mirror主节点的ip的设置,允许源实例主节点接受来自mirror主节点的连接. 3.mirror实例主节点,创建recovery.conf文件,设置primary_conninfo指向源主节点.启动mirror主节点,建立源实例主

  • Postgresql中xlog生成和清理逻辑操作

    0 前言 1.2部分是对XLOG生成和清理逻辑的分析,XLOG暴涨的处理直接看第3部分. 1 WAL归档 # 在自动的WAL检查点之间的日志文件段的最大数量 checkpoint_segments = # 在自动WAL检查点之间的最长时间 checkpoint_timeout = # 缓解io压力 checkpoint_completion_target = # 日志文件段的保存最小数量,为了备库保留更多段 wal_keep_segments = # 已完成的WAL段通过archive_comm

  • postgresql中wal_level的三个参数用法说明

    wal_level中有三个主要的参数:minimal.archive和hot_standby 1.minimal是默认的值,它仅写入崩溃或者突发关机时所需要的信息(不建议使用). 2.archive是增加wal归档所需的日志(最常用). 3.hot_standby是在备用服务器上增加了运行只读查询所需的信息,一般实在流复制的时候使用到. 补充:postgresql WAL相关参数 配置文件 # - Settings - wal_level = minimal # minimal, replica

  • 浅谈PostgreSQL中的孤儿文件用法(orphaned data files)

    创建一个测试表 postgres=# create table t1(a int); CREATE TABLE postgres=# select pg_relation_filepath('t1'); pg_relation_filepath ---------------------- base/75062/75297 (1 row) postgres=# 在操作系统上已经可以看到该文件. $ ls -la $PGDATA/base/75062/75297 -rw------- 1 post

  • postgresql 利用xlog进行热备操作

    一.验证postgresql增量合并的方案 结果:没有有效可行的增量合并方案,暂时放弃 二.梳理postgresql基于wal的增量备份 物理备份与还原适用于跨小版本的恢复但是不能跨平台 逻辑备份与还原备份数据适用于跨版本和跨平台的恢复 postgersql增量备份步骤 1.首先创建归档目录 例如:归档目录为/archive_pg_xlog/xlog 1>mkdir -p /archive_pg_xlog/xlog 2>chown -R postgres:postgres /archive_p

  • 在postgreSQL中运行sql脚本和pg_restore命令方式

    今天踩坑了,把powerdesign生成的sql脚本文件,用pg_restore命令一直运行... 过程惨不忍睹,一直以为是编码问题,修改了serve和client的encoding,结果... 记录一下这个错误: postgreSQL运行sql脚本文件: psql -d dbname -U username -f (脚本所在位置).sql postgerSQL的pg_restore命令 用法: pg_restore [选项]- [文件名] 一般选项: -d, --dbname=名字 连接数据库

  • postgresql 中的序列nextval详解

    一.postgresql中的序列 1.1 场景需求 需要向下图一样,需要对产品编码编码设置一个序列.编码规则 SKU + 序列号: 1.2 序列 序列是基于bigint算法的,因此范围是不能超过一个八字节 整数的范围(-9223372036854775808 到 9223372036854775807). 由于nextval和setval调用绝不会回滚, 如果需要序数的"无间隙"分配,则不能使用序列对象.可以 通过在一个只包含一个计数器的表上使用排他锁来构建无间隙的分配, 但是这种方案

  • PostgreSQL中的VACUUM命令用法说明

    每当PostgreSQL数据库中的表中的行被更新或删除时,死亡行会被遗留下来.VACUUM则会把它们除去来使空间能被重新利用.如果一个表没有被清空,它会变得臃肿,浪费磁盘空间而且会降低顺序表扫描的速度,而且在较小范围内也会降低索引扫描的速度. VACUUM命令只可以移除这些不再被需要的行版本(也被称为元组).如果被删除事务的事务ID(存储在xmax系统列中)比仍然活跃在PostgreSQL数据库(或者共享表的整个集群)中最老的事务(xmin界限)更老,那么这个元组将不再被需要. 注意以下三种情况

  • 利用Mybatis向PostgreSQL中插入并查询JSON字段

    目录 应用场景介绍 数据insert 数据select BATCH 批量插入 前言: 这里我使用的是TimescaleDB,加了一个时间戳字段,不过没差.关于PostgreSQL中Json数据类型的操作,可以参考官网. 应用场景介绍 将TCP发过来的数据包(通过消息队列发过来)解析出数据(一个数据包含有多帧,一帧中含有多条信息),并和本地规则表的格式对应起来.以JsonLineMsg实体类代表对应的一帧数据: package tsdb.entity; import lombok.AllArgsC

  • PostgreSQL中json数据类型详解

    目录 前言 一.PG数据库中JSON的类型 1.json和jsonb的区别 2.项目开发中的选择 3.json数据类型 二.PG中json的简单操作 1.基础json数据操作 2.json和jsonb输出对比 3.jsonb包含测试 总结 前言 JSON(JavaScript Object Notation)是一种轻量级的数据交换格式.它基于 ECMAScript(European Computer Manufacturers Association, 欧洲计算机协会制定的js规范)的一个子集,

  • PostgreSQL中常用的时间日期脚本使用教程

    获取系统时间函数 select now(); --2013-11-28 16:20:25.259715+08 select current_timestamp; --2013-11-28 16:20:38.815466+08 select current_date; --2013-11-28 select current_time; --16:21:08.981171+08 时间的计算 --使用interval select now()+interval '2 day'; --2013-11-3

随机推荐