PostgreSQL 如何查找需要收集的vacuum 表信息

2025-04-02 02:55:24

前言

通常，在PostgreSQL中，由于经常需要对表进行 UPDATE 和 DELETE，因此表会产生碎片空间。

在 PostgreSQL中，使用VACUUM 仅仅对需要执行 VACUUM 表将已删除的空间标识为未使用，以便以后重用这些空间，但是不能立即将占用的空间返还给操作系统，因此需要使用 VACUUM FULL，才可以释放空间，并立即将空间返还给操作系统。

实现脚本

记录收集表创建

CREATE TABLE IF NOT EXISTS tab_vacuum_record
(sqltext text);

收集需要VACUUM 表函数

CREATE OR REPLACE FUNCTION f_vacuum_tables()
RETURNS void AS
$FUNCTION$
 DECLARE
 v_tablename text;
 v_dead_cond bigint;
 v_sql    text;
 cur_tablename REFCURSOR;
 v_vacuum_record text;
 BEGIN
 v_vacuum_record := 'tab_vacuum_record';
 OPEN cur_tablename FOR SELECT tablename FROM pg_tables WHERE tablename !~ '^pg|^sql';
 LOOP
  FETCH cur_tablename INTO v_tablename;
   SELECT n_dead_tup INTO v_dead_cond FROM pg_stat_user_tables WHERE relname = v_tablename;
     IF v_dead_cond > 0 THEN
      v_sql := 'INSERT INTO ' || v_vacuum_record || ' VALUES(' || chr(39) ||'VACUUM FULL ' || v_tablename ||';'|| chr(39) ||')';
    EXECUTE v_sql;
     END IF;
   EXIT WHEN NOT FOUND;
 END LOOP;
 CLOSE cur_tablename;
 END;
$FUNCTION$
LANGUAGE PLPGSQL;

SHELL脚本

#!/bin/bash
#获取环境变量
CURRDIR=$(cd "$(dirname $0)";pwd)
TOPDIR=$(cd $CURRDIR/..;pwd)
CONFIG=$TOPDIR/conf/host.ini
CT_FILE=${TOPDIR}/sql/CREATE_VACCUM_TABLE_RECORD.sql
CT_FUNCTION=${TOPDIR}/sql/CHECK_NEEDS_VACUUM_TABLE_FUNCTION.sql
source $CONFIG
CONNINFO="psql -U $USER -d $DBNAME -h $HOSTADDR -p $PORT"
function check_status()
{
    echo "检查数据库服务器状态是否正常 !"
    stat=`$CONNINFO -Aqt -c 'SELECT 1'`
    if [ "${stat}" == "1" ];then
        echo "服务器连接正常"
    else
        echo "服务器连接异常,退出"
        exit -1;
    fi
}
function create_table()
{
    echo "创建收集需要vacuum的表"
    $CONNINFO -f $CT_FILE
}
function create_function()
{
    echo "创建收集需要 vacuum 表的函数"
    $CONNINFO -f $CT_FUNCTION
}
check_status
create_table
create_function

执行方式

postgres=# SELECT * FROM f_vacuum_tables();
 f_vacuum_tables
-----------------

(1 row)
--创建测试表
postgres=# CREATE TABLE tab_test(id int);
--插入数据
postgres=# INSERT INTO tab_test SELECT id FROM generate_series(1,100000) as id;
INSERT 0 100000
--删除数据
postgres=# DELETE FROM tab_Test WHERE id <= 10000;
DELETE 10002
postgres=# SELECT * FROM tab_vacuum_record ;
    sqltext
-----------------------
 VACUUM FULL tab_test;
(1 row)

该脚本也可以自己根据需要进行修改，详细见github

补充：PostgreSQL中 Vacuum 略谈

VACUUM doc

路由清理

PostgreSQL 需要定期维护清理，一般都是由守护进程自动清理的，我们只是需要参数调优，也可以执行脚本定时去清理回收。

Vacuumming Basics

PG不得不对每张表进行 Vacuum 命令，原因如下：

1、为了回收和再利用通过更新或者删除行所占用的磁盘空间

2、为了更新被PG查询计划所使用的数据分析

3、为了更新只读索引扫描的可见的集合

4、避免由于事务ID或者混合事务ID丢失历史数据

由于这些原因，在进行频繁的 VACUUM 操作时进行规定：

标准 VACUUM

进行回收时，生产环境不影响数据库库的正常使用(SELECT、INSERT、UPDATE、DELETE),并行使用，清理时不允许对表结构进行修改（ALTER TABLE）推荐使用该方案

VACUUM FULL

a、可以回收大量空间，但是比标准回收执行慢

b、运行时需要锁表

VACUUM 运行会导致读写性能比较差，所以需要调整一些参数降低影响

temp_file_limit = -1 #默认-1表示不限制每个进程可使用的最大临时文件限制，单位kb
#max_files_per_process = 1000 #每个子进程允许同时打开文件的最大数量

在执行 VACUUM 和 ANYLYZE 期间，系统会维护一个用于估算各种I/O操作所消耗的内部计数器,当该值达到vacuum_cost_limit的值时，该进程会休眠 vacuum_cost_delay 指定的时间，并重置计数器的值，继续运行 VACUM 或者 ANYLYZE 操作

vacuum_cost_limit = 200
vacuum_cost_delay = 0 # 单位微秒，默认为 0 没有开启

该参数 vacuum_cost_delay 主要用于并发时降低I/O的影响,推荐为10

vacuum_cost_page_hit = 1 # 代表从缓存池查找共享的hash table并扫描 该`页`的内容
             #的估计值
vacuum_cost_page_miss = 10   # 0-10000 credits
vacuum_cost_page_dirty = 20

NOTE

当一张表中包含了大量数据时，同时进行删除或者更新操作时，VACUUM 并不是最好的方案,

如果有该情况，则应该使用 VACUU FULL ,当执行 ALTER TABLE 时，会重新 COPY整

个表和重新构建索引，会进行执行锁，临时占用和原始表大小的磁盘空间，直到新数据COPY完成。

升级执行计划

执行计划通过自己或者 VACUUM调用命令 ANALYZE 收集统计，

创建表达式索引能够提高查询执行计划

default_statistics_target = 100 #提高查询的 析计划

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。如有错误或未考虑完全的地方，望不吝赐教。

PostgreSQL备份工具 pgBackRest使用详解

前言 pgBackRest是一款开源的备份还原工具,目标旨在为备份和还原提供可靠易用的备份. 特性并行备份和还原备份操作期间压缩通常是其瓶颈所在.pgBackRest通过并行处理解决了备份期间压缩出现的瓶颈问题. 本地远程操作自定义协议允许 pgBackRest以最小化配置通过SSH在本地或者远程执行备份.还原和归档.并且该程序也通过协议层提供了PostgreSQL查询接口,以便于必须要再远程访问PostgreSQL,从而保证了其安全性能. 全量,增量和差异备份支持全量,增量和差异备份.
postgresql数据合并,多条数据合并成1条的操作

对于主表中一条记录,对应明细表中的96条数据,每一条数据相隔15分钟,明细中没96条数据对应主表中的一个日期trade_date,并且每条明细中有一个字段start_time, 即明细中每96条数据中第一条数据中start_time为00:00, 第二条为00:15,第三条为00:30,依次类推,直到23:45 ,现在要将明细表中的96条数据合并成24条,即第一条数据中start_time为00:00,第二条为01:00,第三条为02:00 sql:select max(de.bid_num)
postgresql数据添加两个字段联合唯一的操作

我就废话不多说了,大家还是直接看代码吧~ alter table tb_safety_commitment add constraint uk_mac_vendor unique (company_code,promise_date); 补充:一行数据中的多字段值根据连接符拼接 concat_ws(':',a,b) 几行数据中的同一单字段值根据连接符拼接 string_agg(c,' \r\n ') 如果要将多个字段的值拼接成一个: string_agg(concat_ws(':',a,b
PostgreSQL对GROUP BY子句使用常量的特殊限制详解

一.问题描述最近,一个统计程序从Oracle移植到PostgreSQL(版本9.4)时,接连报告错误: 错误信息1: postgresql group by position 0 is not in select list. 错误信息2: non-integer constant in GROUP BY. 产生错误的sql类似于: insert into sum_tab (IntField1, IntField2, StrField1, StrField2, cnt) select IntFi
PostgreSQL中的VACUUM命令用法说明

每当PostgreSQL数据库中的表中的行被更新或删除时,死亡行会被遗留下来.VACUUM则会把它们除去来使空间能被重新利用.如果一个表没有被清空,它会变得臃肿,浪费磁盘空间而且会降低顺序表扫描的速度,而且在较小范围内也会降低索引扫描的速度. VACUUM命令只可以移除这些不再被需要的行版本(也被称为元组).如果被删除事务的事务ID(存储在xmax系统列中)比仍然活跃在PostgreSQL数据库(或者共享表的整个集群)中最老的事务(xmin界限)更老,那么这个元组将不再被需要. 注意以下三种情况
Postgresql 查看SQL语句执行效率的操作

Explain命令在解决数据库性能上是第一推荐使用命令,大部分的性能问题可以通过此命令来简单的解决,Explain可以用来查看 SQL 语句的执行效果,可以帮助选择更好的索引和优化查询语句,写出更好的优化语句. Explain语法: explain select - from - [where ...] 例如: explain select * from dual; 这里有一个简单的例子,如下: EXPLAIN SELECT * FROM tenk1; QUERY PLAN ---------
postgreSQL使用pgAdmin备份服务器数据的方法

使用postgresql的时候,有时候需要备份数据,但是数据库又比较多,比如我们的数据库如下: 这就很烦了,需要一种一键备份还原的方法来备份还原. 1.备份备份可以使用pgadmin自带的备份服务器.右键服务器连接,点击备份服务器,再选择创建的文件与数据库编码(一般为UTF8),即可,感觉比命令行的方式好用多了. 当然也可以使用命令行的方式,以下来自百度,试过没有成功,觉得太麻烦了就放弃了,供参考: SQL备份 pg_dumpall.exe -h localhost -p 5432 -U po
PostgreSQL 如何查找需要收集的vacuum 表信息

前言通常,在PostgreSQL中,由于经常需要对表进行 UPDATE 和 DELETE,因此表会产生碎片空间. 在 PostgreSQL中,使用VACUUM 仅仅对需要执行 VACUUM 表将已删除的空间标识为未使用,以便以后重用这些空间,但是不能立即将占用的空间返还给操作系统,因此需要使用 VACUUM FULL,才可以释放空间,并立即将空间返还给操作系统. 实现脚本记录收集表创建 CREATE TABLE IF NOT EXISTS tab_vacuum_record (sqltext
通过Python收集汇聚MySQL 表信息的实例详解

目录一.需求二.公共基础文件说明 1.配置文件 2.定义声明db连接 3.定义声明访问db的操作三.主要代码 3.1 创建保存数据的脚本 3.2 收集的功能脚本一.需求统计收集各个实例上table的信息,主要是表的记录数及大小. 收集的范围是cmdb中所有的数据库实例. 二.公共基础文件说明 1.配置文件配置文为db_servers_conf.ini,假设cmdb的DBServer为119.119.119.119,单独存放收集监控数据的DBserver为110.110.110.110
PostgreSQL 查找当前数据库的所有表操作

实现的功能类似MySQL: show tables; 在 PostgreSQL 中需要写: select * from pg_tables where schemaname = 'public'; 返回结果类似如下: schemaname | tablename | tableowner | tablespace | hasindexes | hasrules | hastriggers | rowsecurity ------------+-----------+------------+--
Oracle 11g收集多列统计信息详解

前言通常,当我们将SQL语句提交给Oracle数据库时,Oracle会选择一种最优方式来执行,这是通过查询优化器Query Optimizer来实现的.CBO(Cost-Based Optimizer)是Oracle默认使用的查询优化器模式.在CBO中,SQL执行计划的生成,是以一种寻找成本(Cost)最优为目标导向的执行计划探索过程.所谓成本(Cost)就是将CPU和IO消耗整合起来的量化指标,每一个执行计划的成本就是经过优化器内部公式估算出的数字值. 我们在写SQL语句的时候,经常会碰到w
渗透测试信息收集之常用端口信息

目录收集常用端口信息文件共享服务端口远程连接服务端口 Web应用服务端口数据库服务端口邮件服务端口网络常见协议端口特殊服务端口指纹识别收集常用端口信息通过扫描服务器开放的端口进而从该端口判断服务器上存在的服务. 最常见的扫描工具就是Nmap,无状态端口扫描工具Massca.Zmap和御剑高速TCP端口扫描工具. 常见的端口及其说明,以及其攻击方向汇总如下. 文件共享服务端口端口号端口说明攻击方向 21/22/69 FTP/TFTP文件传输协议允许匿名的上传.下载.爆破
php+mysqli实现将数据库中一张表信息打印到表格里的方法

本文实例讲述了php+mysqli实现将数据库中一张表信息(包括表头)打印到表格里的方法.分享给大家供大家参考.具体如下: 这段代码将就看吧.需要学习基础知识.代码如下: 复制代码代码如下: <?php $mysqli = new MySQLi("localhost","root","123456","liuyan"); if(!$mysqli){ die($mysqli->error); } function
sql server实现在多个数据库间快速查询某个表信息的方法

本文实例讲述了sql server实现在多个数据库间快速查询某个表信息的方法.分享给大家供大家参考,具体如下: 最近出来实习,所在公司的服务器有十几个数据库,为了方便根据某个数据表的表名快速找到对应的数据库,又复习了一下游标的知识,写了下面这个sql代码,方便自己的工作. 1.先了解一下系统存储过程和系统表的使用,简单介绍一下我用到的几个系统存储过程(资料参考网络) use master --切换到系统数据库,因为下面用到的系统存储过程和系统表大部分存在于该数据库 go exec sp_
Mysql中 show table status 获取表信息的方法

使用方法 mysql>show table status; mysql>show table status like 'esf_seller_history'\G; mysql>show table status like 'esf_%'\G; 样例: mysql>show table status like 'esf_seller_history'\G; 1.Name 表名称 2.Engine: 表的存储引擎 3.Version: 版本 4.Row_format 行格式.对于My
Postgresql - 查看锁表信息的实现

查看表锁信息,是DBA常用的脚本之一. 实验环境: CentOS 7 PG 10.4 先通过A窗口执行 mytest=# begin; BEGIN mytest=# update t1 set col1 = 'a' where id =1 ; UPDATE 1 mytest=# 打开B窗口执行 mytest=# begin; BEGIN mytest=# update t1 set col1 = 'b' where id =2; UPDATE 1 mytest=# update t1 set c
MySQL 中查找含有目标字段的表的方法

复制代码代码如下: SELECT TABLE_SCHEMA,TABLE_NAME FROM information_schema.`COLUMNS` WHERE COLUMN_NAME='字段名字' 参考:MySQL中,一个字段在多张表都存在,怎么用sql语句一次性查询这些表呢