elasticsearch索引index之merge底层机制的合并讲解

2025-02-17 17:55:54

merge是lucene的底层机制，merge过程会将index中的segment进行合并，生成更大的segment，提高搜索效率。segment是lucene索引的一种存储结构，每个segment都是一部分数据的完整索引，它是lucene每次flush或merge时候形成。每次flush就是将内存中的索引写出一个独立segment的过程。所以随着数据的不断增加，会形成越来越多的segment。因为segment是不可变的，删除操作不会改变segment内部数据，只是会在另外的地方记录某些数据删除，这样可能会导致segment中存在大量无用数据。

搜索时，每个segment都需要一个reader来读取里面的数据，大量的segment会严重影响搜索效率。而merge过程，会将小的segment写到一起形成一个大的segment，减少其数量。同时重写过程会抛弃那些已经删除的数据。因此segment的merge是有利于查询效率的。

elasticsearch的merge其实就是lucene的merge机制。merge过程是lucene有一个后台线程，它会根据merge策略来决定是否进行merge，一旦merge的条件满足，就会启动后台merge。merge策略分为两种，这也是大多数大数据框架所采用的，segment的大小和segment中doc的数量。

以这两个标准为基础实现了三种merge策略：TieredMergePolicy、LogDocMergePolicy 及LogByteSizeMergePolicy。elasticsearch这一部分就是对这三种合并策略的封装，并提供了对于的配置。它的实现方式如下所示：

底层mergeprovider实现了对三种合并策略的初始化和配置，并通过getMergePolicy()方法对外提供。这三种合并策略中LogDocMergePolicy是根据doc数量进行合并，其它两种都是根据segment的大小，只是TieredMergePolicy合并过程是分层进行，它会把小于某一值的所有segment合并成一个大的segment，然后再一次进行。

以上是合并策略，除了合并策略还有一个要说的就是合并线程。前面说过，merge是通过独立线程完成的，lucene对于线程策略也有两种，一种是顺序，另外一种就是并发。

顺序合并策略会阻止索引的进行，因此多数情况先不会使用，而并发合并则是和index过程同时进行，这样不会影响索引和搜索。elasticsearch同样通过provider的形式提供这两种合并线程配置。

merge能够通过减少segment数量来提高搜索速度。但是merge的过程会对索引吞吐量及搜索速度有一定的影响，因此需要配置适当的合并策略参数。对于资源不足的环境，最好禁止自动merge，选择空闲时段手动进行merge。

以上就是elasticsearch索引index之merge底层机制的合并讲解的详细内容，更多关于elasticsearch索引index merge合并的资料请关注我们其它相关文章！

elasticsearch索引index之engine读写控制结构实现

目录 engine的实现结构 Engine类的方法: 如index方法的实现: 总结 engine的实现结构 elasticsearch对于索引中的数据操作如读写get等接口都封装在engine中,同时engine还封装了索引的读写控制,如流量.错误处理等.engine是离lucene最近的一部分. engine的实现结构如下所示: engine接口有三个实现类,主要逻辑都在InternalEngine中. ShadowEngine之实现了engine接口的部分读方法,主要用于对于索引的读操作.
elasticsearch索引index之Mapping实现关系结构示例

目录 Mapping的实现关系结构 parse方法部分Field Mapping的实现关系结构 Lucene索引的一个特点就filed,索引以field组合.这一特点为索引和搜索提供了很大的灵活性.elasticsearch则在Lucene的基础上更近一步,它可以是 no scheme.实现这一功能的秘密就Mapping.Mapping是对索引各个字段的一种预设,包括索引与分词方式,是否存储等,数据根据字段名在Mapping中找到对应的配置,建立索引.这里将对Mapping的实现结构简单分析,
elasticsearch索引index数据功能源码示例

从本篇开始,对elasticsearch的介绍将进入数据功能部分(index),这一部分包括索引的创建,管理,数据索引及搜索等相关功能.对于这一部分的介绍,首先对各个功能模块的分析,然后详细分析数据索引和搜索的整个流程. 这一部分从代码包结构上可以分为:index, indices及lucene(common)几个部分.index包中的代码主要是各个功能对应于lucene的底层操作,它们的操作对象是index的shard,是elasticsearch对lucene各个功能的扩展和封装.indic
Elasticsearch Recovery索引分片分配详解

目录基础知识点减少集群Full Restart造成的数据来回拷贝减少主副本之间的数据复制特大热索引为何恢复慢其他Recovery相关的专家级设置基础知识点在Eleasticsearch中recovery指的就是一个索引的分片分配到另外一个节点的过程:一般在快照恢复.索引副本数变更.节点故障.节点重启时发生.由于master保存整个集群的状态信息,因此可以判断出哪些shard需要做再分配,以及分配到哪个结点,例如: 如果某个shard主分片在,副分片所在结点挂了,那么选择另外一个可用
elasticsearch数据信息索引操作action support示例分析

目录抽象类分析 doExecute方法 performOperation代码 master的相关操作总结抽象类分析 Action这一部分主要是数据(索引)的操作和部分集群信息操作. 所有的请求通过client转发到对应的action上然后再由对应的TransportAction来执行相关请求.如果请求能在本机上执行则在本机上执行,否则使用Transport进行转发到对应的节点.action support部分是对action的抽象,所有的具体action都继承了support action
elasticsearch索引index之Translog数据功能分析

目录跟大多数分布式系统一样,es也通过临时写入写操作来保证数据安全.因为lucene索引过程中,数据会首先据缓存在内存中直到达到一个量(文档数或是占用空间大小)才会写入到磁盘.这就会带来一个风险,如果在写入磁盘前系统崩溃,那么这些缓存数据就会丢失.es通过translog解决了这个问题,每次写操作都会写入一个临时文件translog中,这样如果系统需要恢复数据可以从translog中读取.本篇就主要分析translog的结构及写入方式. 这一部分主要包括两部分translog和tanslogF
elasticsearch索引index之merge底层机制的合并讲解

merge是lucene的底层机制,merge过程会将index中的segment进行合并,生成更大的segment,提高搜索效率.segment是lucene索引的一种存储结构,每个segment都是一部分数据的完整索引,它是lucene每次flush或merge时候形成.每次flush就是将内存中的索引写出一个独立segment的过程.所以随着数据的不断增加,会形成越来越多的segment.因为segment是不可变的,删除操作不会改变segment内部数据,只是会在另外的地方记录某些数据删
elasticsearch索引index之put mapping的设置分析

目录 mapping的设置过程 put mapping updateTask响应总结 mapping的设置过程 mapping机制使得elasticsearch索引数据变的更加灵活,近乎于no schema.mapping可以在建立索引时设置,也可以在后期设置. 后期设置可以是修改mapping(无法对已有的field属性进行修改,一般来说只是增加新的field)或者对没有mapping的索引设置mapping. put mapping操作必须是master节点来完成,因为它涉及到集群mate
elasticsearch索引创建create index集群matedata更新

目录创建索引更新集群index matedata 首先创建index的create方法从indice中获取对应的IndexService 总结创建索引更新集群index matedata 创建索引需要创建索引并且更新集群index matedata,这一过程在MetaDataCreateIndexService的createIndex方法中完成.这里会提交一个高优先级,AckedClusterStateUpdateTask类型的task.索引创建需要即时得到反馈,异常这个task需要返回,
elasticsearch索引的创建过程index create逻辑分析

目录索引的创建过程 materOperation方法实现 clusterservice处理建立索引修改配置总结索引的创建过程从本篇开始,就进入了Index的核心代码部分.这里首先分析一下索引的创建过程.elasticsearch中的索引是多个分片的集合,它只是逻辑上的索引,并不具备实际的索引功能,所有对数据的操作最终还是由每个分片完成. 创建索引的过程,从elasticsearch集群上来说就是写入索引元数据的过程,这一操作只能在master节点上完成.这是一个阻塞式动作,在加上分配
Elasticsearch索引的分片分配Recovery使用讲解

目录什么是recovery? 减少集群full restart造成的数据来回拷贝减少主副本之间的数据复制特大热索引为何恢复慢什么是recovery? 在elasticsearch中,recovery指的是一个索引的分片分配到另外一个节点的过程,一般在快照恢复.索引复制分片的变更.节点故障或重启时发生,由于master节点保存整个集群相关的状态信息,因此可以判断哪些分片需要再分配及分配到哪个节点,例如: 如果某个主分片在,而复制分片所在的节点挂掉了,那么master需要另行选择一个可用节点
图文并茂地讲解Mysql索引(index)

目录前言 1. 索引概述 1.1 什么是索引? 1.2 使用索引和不使用索引的区别 1.3 索引的特点 2. 索引结构 2.1 概述 2.2 二叉树 2.3 B-Tree 2.4 B+Tree 2.5 Hash 3.索引分类 3.1 索引分类 3.2 聚集索引&二级索引 4. 索引语法 5. SQL性能分析 5.1 SQL执行频率 5.2 慢查询日志 5.3 profile详情 5.4 explain 6. 索引使用 6.1 验证索引效率 6.2 最左前缀法则 6.3 索引失效情况 6.3.1

elasticsearch索引index之merge底层机制的合并讲解

相关推荐

随机推荐