索引的原理及索引建立的注意事项

2025-03-30 18:41:05

聚集索引，数据实际上是按顺序存储的，数据页就在索引页上。就好像参考手册将所有主题按顺序编排一样。一旦找到了所要搜索的数据，就完成了这次搜索，对于非聚集索引，索引是安全独立于数据本身结构的，在索引中找到了寻找的数据，然后通过指针定位到实际的数据。

SQL Server中的索引使用标准的B-树来存储他们的信息，如下图所示，B-树通过查找索引中的一个关键之来提供对于数据的快速访问，B-树以相似的键记录聚合在一起，B不代表二叉(binary),而是代表balanced（平衡的），而B-树的一个核心作用就是保持树的平衡。同伙向下遍历这棵树以找到一个数值并定位记录。因为树是平衡的，所以寻找任何记录都只需要等量的资源，而且获取的速度总是一致的—因为从根索引叶索引都具有相同的深度。

索引的中间层次是根据表的行数一级索引行的大小而变化的，如果使用一个较长的键（KEY）来创建索引，一个分页上就只容纳较少的条目，因而索引就需要更多分页（或者说更多层），页越多那么查找就需要话费相对较长的时间来找到所需要的信息，索引就可能不太有用了。

聚集索引

聚集索引的叶级别不仅包含了索引键，还包含了数据页。另一种说法数据本身也是聚集索引的一部分，聚集索引基于键值保持表中的数据有序，表中的数据页是通过一个被称作页链（page chain）的双向链接表来维护的，由于实际的数据页的页链只能按一种方式排序，因此一张表只能拥有一个聚集索引。
这里可能有一个误区，有很多介绍SQL Server索引的文档会告诉读者：聚集索引按照排序顺序（sorted order）物理地存储数据。如果以为物理存储就是磁盘本身的话就会产生误解。试想如果聚集索引需要按照特定顺序在实际的磁盘上维护数据的话，那么任何修改操作都将会产生相当高昂的代价。当一个页变满了需要一分为二的时候，所有后续页面上的数据都必须向后移动。聚集索引中的排序顺序（sorted order）仅仅表示数据页链在逻辑上是有序的。
大多数表都应该需要一个聚集索引。优化器非常倾向于采用聚集索引，因为聚集索引能够直接在叶级别找到数据。由于定义了数据的逻辑顺序，聚集索引能够特别快的访问针对范围值的查询，查询优化器能够发现只有某一段范围的数据页需要扫描。

非聚集索引

对于非聚集索引，叶级别不包含全部的数据。除了键值之外，每个叶级别（树的最底层）中的索引行包含了一个书签（bookmark），告诉SQL Server可以在那里找到与索引键相应的数据行。一个书签可能有两种形式。如果表上存在聚集索引，书签就是相应的数据行的聚集索引键。如果彪是堆（heap）结构，书签就是一个行表示（row identifier，RID），以“文件号：页号：槽号”的格式来定位实际的行。
主键（PRIMARY KEY）与聚集索引（CLUSTER INDEX）
严格来说，主键与聚集索引没有任何关系，如果要说有话，那就是表中没有聚集索引的时候，创建的主键默认就是聚集索引（除非有特别设置为NOCLUSTER）。
在主键与聚集索引的处理方面，注意以下事项：
1、主键不与聚集索引分离
2、聚集索引键列尽量避免使用int之外的数据类型
3、尽量避免使用复合主键

创建索引时的注意事项

1、始终包含聚集索引
当表中不包含聚集索引时，表中的数据是无序的，这会降低数据检索效率。即使通过索引缩小了数据检索的范围，但由于数据本身是无序的，当从表中提取实际数据时，会产生频繁的定位问题，这也使得SQL Server基本上不会使用无聚集索引表中的索引来检索数据。
2、保证聚集索引唯一
由于聚集索引是非聚集索引的行定位器，如果它不唯一，则会使行定位器中包含辅助数据，同时也导致从表中提取数据时，需要借助行定位器中的辅助数据来定位，这会降低处理效率。
3、保证聚集索引最小
每个聚集键值都是所有非聚集索引的叶结点记录，它越小，意味着每个非聚集索引的索引叶包含的有效数据越多，这对于提升索引效率很有好处。
4、覆盖索引
覆盖索引是指索引中的列包含了数据处理中涉及的所有列，覆盖索引相当原始表的一个子集，由于这个子集中包含了数据处理涉及的所有列，因此操作这个子集就可以满足数据处理需要。一般而言，如果大多数处理都只涉及某个大表的某些列，可以考虑为这些列建立覆盖索引。
覆盖索引的建立方法是将要包含的列中的关键列做为索引键列，将其他列做为索引的包含列（使用索引创建语句中的INCLUDE子句）。
5、适量的索引
当数据发生变化时，SQL Server会同步维护相关索引中的数据，过多的索引会加影响数据变更的处理效率。因此，只应该在经常使用的列上建立索引。
适量的索引还体现在对索引列的组合方式的控制上。例如，如果有两个列col1和col2，这两个列的组合会产生三种使用情况：单独使用col1、单独使用col2及同时使用col1和col2。如果有为每种情况都建立索引，则需要建立三个索引。但也可以只建立一个复合索引（col1, col2），这样能够依次满足col1+col2、col1、col2这三种方式的查询，其中，col2利用这个查询会比较勉强（还要配合单独的统计），可以视实际情况确定是否需要为col2建立单独的索引。
特别注意：
不要建立重复索引，目前最常见的重复索引是单独为某个列建立主键和聚集索引
与直接从表中提取数据相比，根据索引检索数据，多了一个索引检索的过程，这个过程要求能够尽量缩小数据检索范围，并且使用最少的时间，这样才能真正保证能够通过索引提高数据检索效率。
实现上述目的，对于索引键列的选择，应该遵循如下原则：
选择性原则
选择性是满足条件的记录占总记录数的百分比，这个比率应该尽可能低，这样才能保证通过索引扫描后，只需要从基础表提取很少的数据。
如果这个比率偏高，则不应该考虑在此列上建立索引。
数据密度原则
数据密度是指列值唯一的记录占总记录数的百分比，这个比率越高，则说明此列越适合建立索引。
在考虑数据密度的时候，还要注意数据分布的问题，只有经常检索的密度高时，才适合建立索引。例如，如果一张表有10万记录，虽然某个列不重复的记录有9万条，但如果经常检索的2万条记录，其不重复的列值才几十条的话，这个列是不太适合建立索引的。另一种情况是，整体数据密度不大，但经常检索的数据的密度大，例如订单的状态，一般来说，订单的状态就几种，但已经Close的订单往往占整个数据的绝大部分，但数据处理的时候，基本上都是检索未Close的订单，这种情况下，为订单的状态列建立索引还是比较有效的（SQL Server 2008中，可以为这种列建立具有更佳效果的筛选索引）。
6、索引键列大小
一般不宜为超过100Byte的列建立索引。
7、复合索引键列顺序
在索引中，索引的顺序主要由索引中的每一个键列确定，因此，对于复合索引，索引中的列顺序是很重要的，应该优先把数据密度大，选择性列，存储空间小的列放在索引键列的前面。

SQLServer2005重建索引前后对比分析

在做维护项目的时,我们经常会遇到索引维护的问题,通过语句,我们就可以判断某个表的索引是否需要重建. 执行一下语句:先分析表的索引分析表的索引建立情况:DBCC showcontig('Table') DBCC SHOWCONTIG 正在扫描 'Table'' 表... 表: 'Table'' (53575229):索引 ID: 1,数据库 ID: 14 已执行 TABLE 级别的扫描. - 扫描页数................................: 228 - 扫描区数....
sqlserver索引的原理及索引建立的注意事项小结

聚集索引,数据实际上是按顺序存储的,数据页就在索引页上.就好像参考手册将所有主题按顺序编排一样.一旦找到了所要搜索的数据,就完成了这次搜索,对于非聚集索引,索引是安全独立于数据本身结构的,在索引中找到了寻找的数据,然后通过指针定位到实际的数据. SQL Server中的索引使用标准的B-树来存储他们的信息,如下图所示,B-树通过查找索引中的一个关键之来提供对于数据的快速访问,B-树以相似的键记录聚合在一起,B不代表二叉(binary),而是代表balanced(平衡的),而B-树的一个核心作用就
索引的原理及索引建立的注意事项

聚集索引,数据实际上是按顺序存储的,数据页就在索引页上.就好像参考手册将所有主题按顺序编排一样.一旦找到了所要搜索的数据,就完成了这次搜索,对于非聚集索引,索引是安全独立于数据本身结构的,在索引中找到了寻找的数据,然后通过指针定位到实际的数据. SQL Server中的索引使用标准的B-树来存储他们的信息,如下图所示,B-树通过查找索引中的一个关键之来提供对于数据的快速访问,B-树以相似的键记录聚合在一起,B不代表二叉(binary),而是代表balanced(平衡的),而B-树的一个核心作用就
深入解析MySQL索引的原理与优化策略

目录索引的概念索引的原理索引的类型索引的使用索引的使用方式注意事项索引优化技巧索引的概念 MySQL索引是一种用于加速数据库查询的数据结构,它类似于书籍的目录,能够快速指导我们找到需要的信息.MySQL索引可以根据一定的算法和数据结构进行排序和存储,从而实现高效的数据查找和访问.在数据库中,索引可以加速数据的查询和更新操作,提高系统性能. MySQL支持多种索引类型,常见的包括B-tree索引.哈希索引和全文索引等.其中,B-tree索引是最常用的一种,它是一种平衡树结构,可以将
MySQL数据库优化之索引实现原理与用法分析

本文实例讲述了MySQL数据库优化之索引实现原理与用法.分享给大家供大家参考,具体如下: 索引什么是索引索引用来快速地寻找那些具有特定值的记录,所有MySQL索引都以B-树的形式保存.如果没有索引,执行查询时MySQL必须从第一个记录开始扫描整个表的所有记录,直至找到符合要求的记录.表里面的记录数量越多,这个操作的代价就越高.如果作为搜索条件的列上已经创建了索引,MySQL无需扫描任何记录即可迅速得到目标记录所在的位置.如果表有1000个记录,通过索引查找记录至少要比顺序扫描记录快100倍.
MySQL索引失效原理

目录 1.索引失效原因 2.再来看看哪些情况会破坏索引的有序性. - 对索引字段做函数操作 - 隐式类型转换 - 隐式字符编码转换 3.总结 1.索引失效原因首先看看哪些情况下,将会导致查找不能利用索引的有序性. 假设一个表test中有a,b,c,d四个字段,c是主键. 在a,b字段上建立联合索引(a,b):CREATE index idx_a_b on test(a,b); B+树联合索引.JPG 可以得到的规律是:优先按a字段从小到大排序,a字段相等的按b字段从小到大排序: 分析以下情况,
深入理解 MySQL 索引底层原理

目录 Mysql 索引底层数据结构选型哈希表(Hash) 二叉查找树(BST) AVL 树和红黑树 B 树 5.B+树 Innodb 引擎和 Myisam 引擎的实现 MyISAM 引擎的底层实现(非聚集索引方式) Innodb 引擎的底层实现(聚集索引方式) 一步一步推导出 Mysql 索引的底层数据结构. Mysql 作为互联网中非常热门的数据库,其底层的存储引擎和数据检索引擎的设计非常重要,尤其是 Mysql 数据的存储形式以及索引的设计,决定了 Mysql 整体的数据检索性能. 我们知
SqlServer索引的原理与应用详解

索引的概念索引的用途:我们对数据查询及处理速度已成为衡量应用系统成败的标准,而采用索引来加快数据处理速度通常是最普遍采用的优化方法. 索引是什么:数据库中的索引类似于一本书的目录,在一本书中使用目录可以快速找到你想要的信息,而不需要读完全书.在数据库中,数据库程序使用索引可以重啊到表中的数据,而不必扫描整个表.书中的目录是一个字词以及各字词所在的页码列表,数据库中的索引是表中的值以及各值存储位置的列表. 索引的利弊:查询执行的大部分开销是I/O,使用索引提高性能的一个主要目标是避免全表扫描,因
SQL Server索引的原理深入解析

前言此文是我之前的笔记整理而来,以索引为入口进行探讨相关数据库知识(又做了修改以让人更好消化).SQL Server接触不久的朋友可以只看以下蓝色字体字,简单有用节省时间:如果是数据库基础不错的朋友,可以全看,欢迎探讨. 索引的概念索引的用途:我们对数据查询及处理速度已成为衡量应用系统成败的标准,而采用索引来加快数据处理速度通常是最普遍采用的优化方法. 索引是什么:数据库中的索引类似于一本书的目录,在一本书中使用目录可以快速找到你想要的信息,而不需要读完全书.在数据库中,数据库程序使用索引可
深入讲解MySQL Innodb索引的原理

引言回想四年前,我在学习mysql的索引这块的时候,老师在讲索引的时候,是像下面这么说的索引就像一本书的目录.而当用户通过索引查找数据时,就好比用户通过目录查询某章节的某个知识点.这样就帮助用户有效地提高了查找速度.所以,使用索引可以有效地提高数据库系统的整体性能. 嗯,这么说其实也对.但是呢,大家看完这种说法,其实可能还是觉得太抽象了!因此呢,我还想再深入的细说一下,所以就有了此文! 需要说明的是,我说的内容只在Mysql的Innodb引擎中是成立的.在Sql Server.oracle.
Mysql执行原理之索引合并详解

Mysql执行原理之索引合并详解我们前边说过MySQL在一般情况下执行一个查询时最多只会用到单个二级索引,但存在有特殊情况,在这些特殊情况下也可能在一个查询中使用到多个二级索引,MySQL中这种使用到多个索引来完成一次查询的执行方法称之为:索引合并/index merge,在前面的成本计算中我们说到过这个概念:“我们需要分别分析单独使用这些索引执行查询的成本,最后还要分析是否可能使用到索引合并”.其实optimizer trace输出的文本中就有这个片段: 具体的索引合并算法有下边三种. In

索引的原理及索引建立的注意事项

相关推荐

随机推荐