首页  

Lucene6索引文件格式     所属分类 lucene 浏览量 49
elasticsearch-5.6.8 

lucene-analyzers-common-6.6.1.jar
lucene-backward-codecs-6.6.1.jar
lucene-core-6.6.1.jar
lucene-grouping-6.6.1.jar
lucene-highlighter-6.6.1.jar
lucene-join-6.6.1.jar
lucene-memory-6.6.1.jar
lucene-misc-6.6.1.jar
lucene-queries-6.6.1.jar
lucene-queryparser-6.6.1.jar
lucene-sandbox-6.6.1.jar
lucene-spatial-6.6.1.jar
lucene-spatial-extras-6.6.1.jar
lucene-spatial3d-6.6.1.jar
lucene-suggest-6.6.1.jar



index
translog

_10.cfe			_u.cfs			_v_Lucene50_0.doc	_x.cfs
_10.cfs			_u.si			_v_Lucene50_0.pos	_x.si
_10.si			_v.dii			_v_Lucene50_0.tim	_y.cfe
_11.cfe			_v.dim			_v_Lucene50_0.tip	_y.cfs
_11.cfs			_v.fdt			_v_Lucene54_0.dvd	_y.si
_11.si			_v.fdx			_v_Lucene54_0.dvm	_z.cfe
_12.cfe			_v.fnm			_w.cfe			_z.cfs
_12.cfs			_v.nvd			_w.cfs			_z.si
_12.si			_v.nvm			_w.si			segments_3
_u.cfe			_v.si			_x.cfe			write.lock

同一文件夹中的所有文件构成一个Lucene索引
一个索引多个段  添可以合并
segments_N 段元数据文件

文档 Document
域(Field)
词(Term)

正向信息  索引到词 
索引(Index) –> 段(segment) –> 文档(Document) –> 域(Field) –> 词(Term)
Index –> Segments(segments_N) –> Field(fnm, fdx, fdt) –> Term (tvx, tvd, tvf)

segments_N   .fnm   .fdx  .fdt   .tvx  .tvd  .tvf

反向信息 词到文档 
词(Term) –> 文档(Document)
Term Dictionary (tii, tis) –>  Frequencies (.frq) –> Positions (.prx)
.tis   .tii  .frq  .prx



segments_N 段(segment)元数据信息(metadata),索引文件格式版本号,索引的版本号,下一个新段的段名,段的个数 .fnm Field 元数据信息 .fdt 域数据文件 stored field信息 .fdx 域索引文件 .tvx 词向量索引文件 .tvd 词向量文档文件 .tvf 词向量域文件 .tii 词典文件,包含 TermCount 总词数,跳跃表结构,跳跃步数,跳跃表最大层数 .tis 词典索引文件 .frq 词频信息 .prx 词位置信息 .cfs .cfe 复合索引文件 .si 段的属性信息,段中索引的文档数量,版本信息,段合并信息,指向该段的文件列表(例如fdt,.fdx文件)等 .doc 包含term列表,频次,termcount .pos 包含term的位置信息 .tim 词典 .tip 词索引,指向词典的索引 .del 删除文档 .pay 额外存储每个位置的元数据信息,如用户负载等 .nvd .nvm Norms .dvd , .dvm write.lock 锁文件,阻止多个indexWriter向同一个文件写数据

上一篇     下一篇
influxdb使用简介

influxdb 连续查询

influxDB HTTP API使用

Lucene7 Index File Formats

lucene二十年

lucene flush commit与elasticsearch的refresh flush