文章详情|Elasticsearch mapping中的字段属性总结

Elasticsearch mapping中的字段属性总结 所属分类 elasticsearch 浏览量 1931

Elasticsearch5

store   yes no 
index   no(无法搜索)  analyzed not_analyzed
analyzer
search_analyzer
index_analyzer
boost        字段权重 默认 1.0 ，建议在查询时指定权重
copy_to      可使用copy_to自定义_all字段
doc_values
fielddata
ignore_above      字符串长度超过ignore_above设置的不会被索引和存储
ignore_malformed  是否忽略格式不对的数据
include_in_all    是否将字段加入_all字段
norms             用于标准化文档，以便查询时计算文档相关性，不评分的字段可关闭，节省空间
null_value
similarity 档评分模型 
BM25  ES和Lucene默认的评分模型
classic TF/IDF评分
boolean 布尔模型评分

fields    让同一支持多种索引方式，比如String类型字段，使用text类型做全文检索，使用keyword类型做聚合和排序。

format      主要用于格式化日期

normalizer   用于解析前的标准化配置，比如把所有的字符转化为小写等

index_options  索引时存储倒排索引中的信息
docs	只存储文档编号
freqs	存储文档编号和词项频率
positions	文档编号、词项频率、词项的位置
offsets	文档编号、词项频率、词项的位置、词项开始和结束的位置 ，可使用Postings highlighter
偏移位置可用于临近搜索和短语查询

term_vector  词向量信息
no	默认值，不存储词向量
yes	只存储词项集合
with_positions	存储词项和词项位置
with_offsets	词项和字符偏移位置
with_positions_offsets	存储词项、词项位置、字符偏移位置


index_options 与 term_vector 的区别？

{
  "mappings": {
    "mytype": {
      "properties": {
        "title": {
          "type":    "text",
          "copy_to": "full_content" 
        },
        "content": {
          "type":    "text",
          "copy_to": "full_content" 
        },
        "full_content": {
          "type":    "text"
        }
      }
    }
  }
}


"city": {
          "type": "text",
          "fields": {
            "raw": { 
              "type":  "keyword"
            }
          }
        }

city   city.raw



分词器 索引用ik_max_word，搜索用ik_smart，索引时最大化的将内容分词，搜索时更精确的搜索到想要的结果。

elasticsearch索引原理

elasticsearch 文档评分模型

git提交指定文件

BI工具需求要点

proguard使用

linux history 命令