Lucene fnm索引文件格式源码解析

2025-03-11 21:04:09

简介

后缀为fnm文件是存储索引的字段的元信息，包含字段名称，字段类型，字段属性等信息。

版本

lucene 9.1.0

涉及的主要类

fnm索引文件的生成源码比较简单，不贴了，主要逻辑在：

org.apache.lucene.codecs.lucene90.Lucene90FieldInfosFormat

代码示例

FieldType fieldType = new FieldType();
fieldType.setStored(true);
fieldType.setStoreTermVectors(true);
fieldType.setStoreTermVectorOffsets(true);
fieldType.setStoreTermVectorPositions(true);
fieldType.setStoreTermVectorPayloads(true);
fieldType.setTokenized(true);
fieldType.setOmitNorms(true);
fieldType.setIndexOptions(IndexOptions.DOCS_AND_FREQS_AND_POSITIONS_AND_OFFSETS);
Document doc = new Document();
doc.add(new Field("name", "maria", fieldType));
doc.add(new SortedDocValuesField("name", new BytesRef("maria")));
doc.add(new IntPoint("id", 1, 2, 3));
doc.add(new KnnVectorField("vector", new float[]{1.1f, 2.2f, 3.3f}, VectorSimilarityFunction.COSINE));

文件结构全局示意图

字段描述

Header

文件头部信息，主要是包括：

文件头魔数（同一lucene版本所有文件相同）
该文件使用的codec名称：Lucene90FieldInfos（codec可以理解成文件的布局格式，不同版本lucene相同后缀文件有不一样的版本格式）
codec版本
segment后缀名（一般为空）
segment id（也是Segment_N文件中的N）

FieldCount

该索引的field总数

Field

记录字段的元信息

FieldName

字段名称，比如示例代码中的name，id，vector都是字段名称

FieldNumber

字段的编号

FieldBits

部分属性的位图信息，是一个组合值，描述字段是否具有以下属性：

是否存储词向量（termVector）：0x1
是否要忽略norm值：0x2
是否带有payload：0x4
该字段是否是软删除字段（soft delete）：0x8

示例代码中的name字段的FieldBits的值为：0x1 | 0x2 | 0x4 = 0x7

IndexOptions

字段的索引选项，表示在索引该字段的时候存储的倒排信息有哪些，所有的类型：

0：NONE
1：DOCS
2：DOCS_AND_FREQS
3：DOCS_AND_FREQS_AND_POSITIONS
4：DOCS_AND_FREQS_AND_POSITIONS_AND_OFFSETS

DocValuesBits

官方文档描述的是由norm和docValue类型的组合值，但是从源码看只存储了docValue类型。

0：NONE
1：NUMERIC
2：BINARY
3：SORTED
4：SORTED_SET
5：SORTED_NUMERIC

DocValuesGen

可以理解为字段DocValues的版本号，通过IndexWriter.updateDocValues(...)会更新该版本号

Attributes

可能的值有：

PointDimensionCount

如果字段是IntPoint，LongPoint等类型，则记录维数。

PointNumBytes

如果字段是IntPoint，LongPoint等类型，则记录每一维数据存储需要的字节个数。

VectorDimension

向量字段记录向量的维数

VectorSimilarityFunction

向量相似度衡量函数：

EUCLIDEAN：欧式距离
DOT_PRODUCT：点积
COSINE：consine距离

Footer

文件尾，主要包括

文件尾魔数（同一个lucene版本所有文件一样）
0
校验码

以上就是Lucene fnm索引文件格式源码解析的详细内容，更多关于Lucene fnm索引文件格式的资料请关注我们其它相关文章！

Lucene源码系列多值编码压缩算法实例详解

目录背景特别说明前置知识总览编解码 BulkOperation BulkOperationPacked 成员变量构造器编码解码 BulkOperationPacked* 应用 PackedWriter 分段处理 AbstractBlockPackedWriter BlockPackedWriter MonotonicBlockPackedWriter DirectWriter DirectMonotonicWriter 总结背景在Lucene中,涉及到索引文件生成的时候,会看
Lucene单值编码压缩算法源码解析

目录引言 VInt编码编码原理 VInt编码1314 VInt编码10 VInt编码-10 源码实现编码解码 zigzag编码编码原理源码编码解码 ZFloat 编码原理源码编码解码 ZDouble 编码原理源码编码解码 TLong 编码原理源码编码解码引言本文收集了我在看Lucene源码中遇到的所有的对单值(int,long,float,double)的压缩算法,可能一种类型针对不同的场景会有多种不同的压缩策略,本文会随着我自己的源码阅读不断持续更新. 不管是什
Lucene fnm索引文件格式源码解析

目录简介版本涉及的主要类代码示例文件结构全局示意图字段描述 Header FieldCount Field FieldName FieldNumber FieldBits IndexOptions DocValuesBits DocValuesGen Attributes PointDimensionCount PointNumBytes VectorDimension VectorSimilarityFunction Footer 简介后缀为fnm文件是存储索引的字段的元信息,包
.properties文件读取及占位符${...}替换源码解析

前言我们在开发中常遇到一种场景,Bean里面有一些参数是比较固定的,这种时候通常会采用配置的方式,将这些参数配置在.properties文件中,然后在Bean实例化的时候通过Spring将这些.properties文件中配置的参数使用占位符"${}"替换的方式读入并设置到Bean的相应参数中. 这种做法最典型的就是JDBC的配置,本文就来研究一下.properties文件读取及占位符"${}"替换的源码,首先从代码入手,定义一个DataSource,模拟一下JDB
JAVA Vector源码解析和示例代码

第1部分 Vector介绍Vector 是矢量队列,它是JDK1.0版本添加的类.继承于AbstractList,实现了List, RandomAccess, Cloneable这些接口.Vector 继承了AbstractList,实现了List:所以,它是一个队列,支持相关的添加.删除.修改.遍历等功能.Vector 实现了RandmoAccess接口,即提供了随机访问功能.RandmoAccess是java中用来被List实现,为List提供快速访问功能的.在Vector中,我们即可以通过
Vue源码解析之数组变异的实现

力有不逮的对象众所周知,在 Vue 中,直接修改对象属性的值无法触发响应式.当你直接修改了对象属性的值,你会发现,只有数据改了,但是页面内容并没有改变. 这是什么原因? 原因在于: Vue 的响应式系统是基于Object.defineProperty这个方法的,该方法可以监听对象中某个元素的获取或修改,经过了该方法处理的数据,我们称其为响应式数据.但是,该方法有一个很大的缺点,新增属性或者删除属性不会触发监听,举个栗子: var vm = new Vue({ data () { return
从vue源码解析Vue.set()和this.$set()

前言最近死磕了一段时间vue源码,想想觉得还是要输出点东西,我们先来从Vue提供的Vue.set()和this.$set()这两个api看看它内部是怎么实现的. Vue.set()和this.$set()应用的场景平时做项目的时候难免不会对数组或者对象进行这样的骚操作操作,结果发现,咦~~,他喵的,怎么页面没有重新渲染. const vueInstance = new Vue({ data: { arr: [1, 2], obj1: { a: 3 } } }); vueInstance.
Java源码解析之HashMap的put、resize方法详解

一.HashMap 简介 HashMap 底层采用哈希表结构数组加链表加红黑树实现,允许储存null键和null值数组优点:通过数组下标可以快速实现对数组元素的访问,效率高链表优点:插入或删除数据不需要移动元素,只需要修改节点引用效率高二.源码分析 2.1 继承和实现 public class HashMap<K,V> extends AbstractMap<K,V> implements Map<K,V>, Cloneable, Serializable {
Python源码解析之List

一.列表结构体创建列表C语言底层的结构体 lists = [] list.append('name') list.append('age') list.append('grade') typedef struct{ struct _object *_ob_next; struct _object *_ob_prev; // python内部将对象放在链表进行内存管理 Py_ssize_t ob_refcnt; // 引用计数器,就是多少变量用了它 PyObject **ob_item; //
Java1.7全网最深入HashMap源码解析

目录存储结构属性成员构造函数: hash方法 Map中添加数据 put方法流程图源码 inflateTable方法 putForNullKey方法 addEntry方法 createEntry方法扩容方法 resize方法 transfer方法从HashMap中获取数据 get方法从HashMap中删除数据 remove方法对HashMap的其他操作 1.7和1.8版本区别数据结构 hash值计算方式扩容机制存储结构内部包含了一个 Entry 类型的数组 table.E
java中CopyOnWriteArrayList源码解析

目录简介继承体系源码解析属性构造方法 add(Ee)方法 add(intindex,Eelement)方法 addIfAbsent(Ee)方法 get(intindex) remove(intindex)方法 size()方法提问总结简介 CopyOnWriteArrayList是ArrayList的线程安全版本,内部也是通过数组实现,每次对数组的修改都完全拷贝一份新的数组来修改,修改完了再替换掉老数组,这样保证了只阻塞写操作,不阻塞读操作,实现读写分离. 继承体系 public
java编程ThreadLocal上下传递源码解析

目录引导语 1.用法演示 2.类结构 2.1.类泛型 2.2.关键属性 2.2.1.ThreadLocalMap 3.ThreadLocal是如何做到线程之间数据隔离的 4.set方法 5.get方法 6.扩容 7.总结引导语 ThreadLocal 提供了一种方式,让在多线程环境下,每个线程都可以拥有自己独特的数据,并且可以在整个线程执行过程中,从上而下的传递. 1.用法演示可能很多同学没有使用过 ThreadLocal,我们先来演示下 ThreadLocal 的用法,demo 如下: