oracle分区表之hash分区表的使用及扩展

Hash分区是通过对分区键运用Hash算法从而决定数据的分区归属。使用Hash分区有什么优点呢?

常用的分区表所具有的优点:如提高数据可用行,减少管理负担,改善语句性能等优点,hash分区同样拥有。此外,由于Hash分区表是按分区键的hash计算结果来决定其分区的,而特定的分区键其hash值是固定的,也就是说Hash分区表的数据是按分区键值来聚集的,同样的分区键肯定在同一分区。
比如,在证券行业,我们经常查询某一只股票的K线,
假设表的结构如下:

代码如下:

create table equity
(
id number,
trade_date date,
……);

Equity表可能会很大,对equity表的查询通常都是指定id,查询某一交易日期或者某段时期内的其他信息。这种情况下我们需要如何为equity表选择分区呢?
单从表本身结构来看,似乎trade_date列很适合被选择用来作范围分区。但如果我们这样分区的话,前面需求中的查询:指定某一id,查询其某一范围内的交易信息,比如看1年内的K线,则这种查询常常需要跨分区。我们知道,对分区表作跨分区查询,很多时候其性能并不会太好,特别是这种查询很可能还要跨很多分区。
你也可能会说,我们再在id, trade_date列上建个索引不就行了,仔细想想是不是这样呢?这时候的equity表中的数据是按trade_date值来聚集的,同样trade_date值的数据常常在一个数据块中,这样前面需求中所描述的查询即使通过索引访问,最终读表时也常常是去读离散的数据块,即每一条记录需要对应读一个表数据块。
如果建成Hash分区表,则数据按hash分区键聚集,就更适合需求中描述的查询,因为同样id的记录必定在同一分区,同时,同样 id值的记录落在同一数据块的几率也增大了,从而“一定程度上”减少了IO。
上面对hash分区减少IO的描述加了引号,因为仅依靠Hash分区表试图实现大范围减少IO操作是不现实的,特别是当equity表中记录的股票数非常多时,同一股票发生在不同交易日的记录在物理上也很难聚集到相同数据块中。实际上,如果我们在Hash分区的基础上再对equity表采用IOT表的组织方式,则前面描述的查询性能就可大为提高。IOT表不在该文讨论的范围之内,这里就不作进一步讨论了。
当我们决定使用Hash表之前,我们还需要确定我们的所选择的分区键值是连续分布的,或者接近连续分区,此外,分区的个数需要是2的整数幂,比如2,4,8… 这些要求是由Hash函数的特点决定的,这样我们分区表的各个分区所包含的数据量才会比较平均。

Hash分区表的扩展:

Hash分区表是通过add partition命令来增加分区的。Oracle推荐分区的个数是2的幂,比如,2,4,8..等等,这样可以确保数据在各个分区中分布比较均匀。当然,如前所述,还需要分区键值是连续分布的,或接近连续分布。
增加新分区时,需要将一些原有的数据从旧的分区划分到新的分区中,那么这种数据划分时来源分区选择遵循什么原则呢?
要点如下:如果要增加的分区是第N个分区,大于等于N的最小2的整数幂为M,则当增加第N个分区时,这个分区的数据来源于分区N-M/2。
比如,现在有个Hash分区表共有100个分区,我们想为其增加一个分区,则它是101个分区,即上面公式中的N为101,而大于101的最小2的整数幂为128,则M为128,于是,这个101分区的数据来源就应该是101-128/2=37分区。
换个角度来说,当我们在增加第101分区的时候,是需要锁定37分区的,因为我们需要将该分区中的部分数据插入到新的101分区中。
下面,我们用一个实例来验证上面的说法,同时看看在实际操作中有什么需要注意的事项:
Commodity表是我们系统中的一个大表,几年前在为该表创建Hash分区表时,当时的DBA在选择分区数时指定了100个分区:

代码如下:

select TABLE_NAME,PARTITION_POSITION,PARTITION_NAME,NUM_ROWS from user_tab_partitions where table_name=\'COMMODITY\' order by PARTITION_POSITION;
TABLE_NAME PARTITION_POSITION PARTITION_NAME NUM_ROWS
-------------- ------------------ ---------------------- ----------
COMMODITY 1 COT_IND01_P1 4405650
COMMODITY 2 COT_IND01_P2 5046650
COMMODITY 3 COT_IND01_P3 5107550
……
COMMODITY 36 COT_IND01_P36 5718800
COMMODITY 37 COT_IND01_P37 9905200
COMMODITY 38 COT_IND01_P38 10118400
COMMODITY 39 COT_IND01_P39 10404950
COMMODITY 40 COT_IND01_P40 9730850
COMMODITY 41 COT_IND01_P41 9457300
COMMODITY 42 COT_IND01_P42 9717950
COMMODITY 43 COT_IND01_P43 9643900
COMMODITY 44 COT_IND01_P44 11138000
COMMODITY 45 COT_IND01_P45 9381300
COMMODITY 46 COT_IND01_P46 10101150
COMMODITY 47 COT_IND01_P47 8809950
COMMODITY 48 COT_IND01_P48 10611050
COMMODITY 49 COT_IND01_P49 10010600
COMMODITY 50 COT_IND01_P50 8252600
COMMODITY 51 COT_IND01_P51 9709900
COMMODITY 52 COT_IND01_P52 8983200
COMMODITY 53 COT_IND01_P53 9012750
COMMODITY 54 COT_IND01_P54 9310650
COMMODITY 55 COT_IND01_P55 8966450
COMMODITY 56 COT_IND01_P56 8832650
COMMODITY 57 COT_IND01_P57 9470600
COMMODITY 58 COT_IND01_P58 8932450
COMMODITY 59 COT_IND01_P59 9994850
COMMODITY 60 COT_IND01_P60 9617450
COMMODITY 61 COT_IND01_P61 10278850
COMMODITY 62 COT_IND01_P62 9277600
COMMODITY 63 COT_IND01_P63 8136300
COMMODITY 64 COT_IND01_P64 10064600
COMMODITY 65 COT_IND01_P65 3710900
……
COMMODITY 99 COT_IND01_P99 5273800
COMMODITY 100 COT_IND01_P100 5293350
100 rows selected.

查询各个分区的数据分布,我们可以看到,从分区37 ~ 64的28个分区的记录数大概是其他分区的两倍。由于100不是2的整数幂,所以Oracle的hash函数是无法保证数据是平均分布的。我们为该表添加一个新的分区COT_IND01_P101:

代码如下:

alter table nts_commodity_ts add partition COT_IND01_P101;
Table altered.
Elapsed: 00:06:58.52

收集统计信息后查询新的分区记录数:

代码如下:

select TABLE_NAME,PARTITION_POSITION,PARTITION_NAME,NUM_ROWS from user_tab_partitions where table_name=\'COMMODITY\' and partition_name in (\'COT_IOT_IND01_P37\',\'COT_IOT_IND01_P101\');

TABLE_NAME PARTITION_POSITION PARTITION_NAME NUM_ROWS
------------------ ------------------ --------------------- ----------
COMMODITY 37 COT__IND01_P37 4905200
COMMODITY 101 COT_IND01_P101 5107550

这时,我们可以看到,分区37中的数据被接近于平分到了分区37和101中。
监控增加分区过程中session锁的情况,我们发现期间有两个对象被以exclusive模式锁定了:

代码如下:

SQL> select * from v$lock where sid=1239 and type=\'TM\' and LMODE=6 order by sid,lmode;
ADDR                KADDR          SID TY ID1    ID2 LMODE REQUEST CTIME BLOCK
---------------- ---------------- ---------- -- ---------- ---------- ---------- ---------- ---------- ----------
FFFFFFFF7D764828 FFFFFFFF7D764888 1239 TM 4004126 0  6 0 72 2
FFFFFFFF7D764828 FFFFFFFF7D764888 1239 TM 4004063 0  6 0 72 2
它们分别是什么对象呢?
select OBJECT_NAME,SUBOBJECT_NAME,OBJECT_ID from user_objects where object_id in (4004126,4004063)
OBJECT_NAME SUBOBJECT_NAME OBJECT_ID
--------------------- ------------------------------ ----------
COMMODITY COT_IND01_P100 4004126
COMMODITY COT_IND01_P37 4004063

可以看到,分区37和100都被锁定了。锁定37分区是意料中的事,因为要从该表转移数据。那为什么要锁定第100个分区,也就是最后一个分区呢?
我的理解是:新增加分区的位置101是由原分区表的分区数100确定的,如果在增加分区的过程中允许对原表最后一个分区100作DDL操作,如coalesce操作,则新加的101分区就不一定是从原来的分区37分配数据了,101分区本身应该是新的第100分区,这样就引起混乱了。到这里,你可能会说,按这理解,是不是其他的分区也应该锁定呢?其实不用,因为hash分区表是不支持drop partition操作的,而只支持coalesce操作来实现类似的操作,但coalesce只能从最后一个分区开始收缩。
了解了增加hash表分区过程中锁信息的实际指导意义是什么呢?
继续上例中的讨论,由于分区37和最后一个分区100会被排他锁定,因此在添加分区过程中这两个分区是不能作DML操作的,因为DML操作需要在分区上申请共享锁(mode为3)。也就是操作这两个分区的应用会受到影响。
Hash表增加分区不会像其他类型分区表,如range分区那样能够迅速完成,因为这里添加分区的过程中是要有IO操作的,要转移数据到新的分区。其实这还不是最主要的,由于Hash表是根据分区键Hash函数值来决定分区的,添加分区的主要时间其实是花在了计算hash值上。在上面的测试中,添加新分区操作的消耗时间是6分58秒,从下面的10046统计信息可以看到,其中6分钟都是花在了CPU操作上,相信主要是Hash运算引起的。

[code]
OVERALL TOTALS FOR ALL RECURSIVE STATEMENTS
 call     count       cpu    elapsed       disk      query    current        rows
------- ------  -------- ---------- ---------- ---------- ----------  ----------
Parse      328      0.17       0.27          0          0        148           0
Execute   1520    360.14     396.30     456820   11416202      26357    11565252
Fetch     1767      5.42      21.18      21421      26540          0        2862
------- ------  -------- ---------- ---------- ---------- ----------  ----------
total     3615    365.73     417.76     478241   11442742      26505    11568114

该测试案例中分区COT_IND01_P37中共有接近1千万条数据,耗时接近7分钟,假设分区数据达到了1亿条,则耗时应该在1个小时以上。如果我们的Hash分区数按Oracle的建议为2的整数幂,则我们在增加分区时是要增加原有分区一倍的新分区,比如原分区为128个,扩展的时候需要增加128个分区,乘以每次添加分区需要的时间,则为Hash表增加分区将是一个很恐怖的操作。
总之,Hash分区有其优势,但也有严重的缺陷,比如这里描述的分区扩展问题。因此在项目设计之初,我们就需要慎重选择分区数。但是随着数据量的增加,我们又很难避免为分区表增加分区的操作,这种操作是很耗资源的操作,操作过程中由于锁的问题会影响对原有某些分区的操作。但如果我们因为畏惧前面存在的问题拖着不作分区扩展,则越是往后,随着数据量的增加,这种增加分区的操作越难以实施。

(0)

相关推荐

  • oracle普通表转化为分区表的方法

    上一篇文章中我们了解了oracle数据与文本导入导出源码示例的相关内容,接下来我们看看,oracle中如何将普通表转化为分区表的方法. oracle官方建议当表的大小大于2GB的时候就使用分区表进行管理,分区表相对于小的表管理和性能上都有很大的优势,本文档暂时不介绍具体的优势,主要介绍几种普通表转换成分区表的方法. [方法概述]oracle官方给了以下四种操作的方法:  A)  Export/import method(导入导出)  B)  Insert with a subquery meth

  • ORACLE 分区表的设计

    分区表的概念 分区致力于解决支持极大表和索引的关键问题.它采用他们分解成较小和易于管理的称为分区的片(piece)的方法.一旦分区被定义,SQL语句就可以访问的操作某一个分区而不是整个表,因而提高管理的效率.分区对于数据仓库应用程序非常有效,因为他们常常存储和分析巨量的历史数据. 分区表的分类 Range partitioning(范围分区) Hash partitioning(哈希分区) List partitioning(列表分区) Composite range-hash partitio

  • oracle分区表之hash分区表的使用及扩展

    Hash分区是通过对分区键运用Hash算法从而决定数据的分区归属.使用Hash分区有什么优点呢? 常用的分区表所具有的优点:如提高数据可用行,减少管理负担,改善语句性能等优点,hash分区同样拥有.此外,由于Hash分区表是按分区键的hash计算结果来决定其分区的,而特定的分区键其hash值是固定的,也就是说Hash分区表的数据是按分区键值来聚集的,同样的分区键肯定在同一分区.比如,在证券行业,我们经常查询某一只股票的K线,假设表的结构如下: 复制代码 代码如下: create table eq

  • MySQL分区表的局限和限制详解

    禁止构建 分区表达式不支持以下几种构建: 存储过程,存储函数,UDFS或者插件 声明变量或者用户变量 可以参考分区不支持的SQL函数 算术和逻辑运算符 分区表达式支持+,-,*算术运算,但是不支持DIV和/运算(还存在,可以查看Bug #30188, Bug #33182).但是,结果必须是整形或者NULL(线性分区键除外,想了解更多信息,可以查看分区类型). 分区表达式不支持位运算:|,&,^,<<,>>,~ . HANDLER语句 在MySQL 5.7.1之前的分区表不

  • Mysql分区表的管理与维护

    改变一个表的分区方案只需使用alter table 加 partition_options 子句就可以了.和创建分区表时的create table语句很像. 创建表 CREATE TABLE trb3 (id INT, name VARCHAR(50), purchased DATE) PARTITION BY RANGE( YEAR(purchased) ) ( PARTITION p0 VALUES LESS THAN (1990), PARTITION p1 VALUES LESS THA

  • MySQL分区表的正确使用方法

    MySQL分区表概述 我们经常遇到一张表里面保存了上亿甚至过十亿的记录,这些表里面保存了大量的历史记录. 对于这些历史数据的清理是一个非常头疼事情,由于所有的数据都一个普通的表里.所以只能是启用一个或多个带where条件的delete语句去删除(一般where条件是时间). 这对数据库的造成了很大压力.即使我们把这些删除了,但底层的数据文件并没有变小.面对这类问题,最有效的方法就是在使用分区表.最常见的分区方法就是按照时间进行分区. 分区一个最大的优点就是可以非常高效的进行历史数据的清理. 1.

  • 通过实例学习MySQL分区表原理及常用操作

    1.分区表含义 分区表定义指根据可以设置为任意大小的规则,跨文件系统分配单个表的多个部分.实际上,表的不同部分在不同的位置被存储为单独的表.用户所选择的.实现数据分割的规则被称为分区函数,这在MySQL中它可以是模数,或者是简单的匹配一个连续的数值区间或数值列表,或者是一个内部HASH函数,或一个线性HASH函数. 分表与分区的区别在于:分区从逻辑上来讲只有一张表,而分表则是将一张表分解成多张表   2.分区表优点 1)分区表更容易维护.对于那些已经失去保存意义的数据,通常可以通过删除与那些数据

  • MySQL最佳实践之分区表基本类型

    MySQL分区表概述 随着MySQL越来越流行,Mysql里面的保存的数据也越来越大.在日常的工作中,我们经常遇到一张表里面保存了上亿甚至过十亿的记录.这些表里面保存了大量的历史记录. 对于这些历史数据的清理是一个非常头疼事情,由于所有的数据都一个普通的表里.所以只能是启用一个或多个带where条件的delete语句去删除(一般where条件是时间). 这对数据库的造成了很大压力.即使我们把这些删除了,但底层的数据文件并没有变小.面对这类问题,最有效的方法就是在使用分区表.最常见的分区方法就是按

  • Mysql临时表及分区表区别详解

    临时表与内存表 内存表,指的是使用Memory引擎的表,建表语法是create table - engine=memory.这种 表的数据都保存在内存里,系统重启的时候会被清空,但是表结构还在.除了这两个特性看 上去比较"奇怪"外,从其他的特征上看,它就是一个正常的表 临时表,可以使用各种引擎类型 .如果是使用InnoDB引擎或者MyISAM引擎的临时表,写 数据的时候是写到磁盘上的.当然,临时表也可以使用Memory引擎. 临时表特性 建表语法是create temporary ta

  • SQL Server中分区表的用法

    目录 一.分区表简介 二.对表分区的理由 三.分区表的操作步骤 第一步.定义分区函数: 第二步.定义分区构架 第三步.定义分区表 四.分区表的分割 五.分区表的合并 一.分区表简介 分区表是SQL Server2005新引入的概念,这个特性在逻辑上将一个表在物理上分为多个部分.(即它允许将一个表存储在不同的物理磁盘里).在SQL Server2005之前,分区表实际上是分布式视图,也就是多个表做union操作. 分区表在逻辑上是一个表,而物理上是多个表.在用户的角度,分区表和普通表是一样的,用户

  • PostgreSQL怎么创建分区表详解

    目录 前言 列分区表 范围分区表 总结 前言 PG 假如我们想像Hive那也创建动态分区是不能实现的.         那么需要我们手动通过脚本来创建分区表,创建分区表必须要创建主表和分区表. 因此我们可以根据我们需求提前用脚本把分区表生成即可,也可以用触发器来实现. 主表:定义我们的一些约束,以及分区键,实质上不存储数据 分区表:主要是用来存储数据的.所有列及约束都跟随主表 注意:如果我们指定分区表不存在会报错,因此一定要提前创建好分区表,并且要数据不能有遗漏的分区键. 列分区表 就是我们指定

  • 深入了解MySQL中分区表的原理与企业级实战

    目录 本文导读 一.什么是分区表 二.分区表的工作原理 1.分区表增删改查原理 2.分区表工作原理 三.分区表使用实战 1.分区表企业级实战 2.分区表的使用场景 3.分区表自身限制 4.分区表的误区 本文导读 本文详细讲解什么是分区表,分区表增删改查的工作原理以及分区表的实战,分区表的场景有哪些,哪些场景不建议用分区表,并列举出六点使用分区表的误区. 一.什么是分区表 分区表是一个独立的逻辑表,底层由多个物理子表组成. 分区的代码实际上是底层表的一组处理程序对象的封装.分区表的请求将通过句柄对

随机推荐