Elasticsearch7.X 入门学习第五课笔记---- - Mapping设定介绍

原文:Elasticsearch7.X 入门学习第五课笔记---- - Mapping设定介绍

本文链接：https://blog.csdn.net/qq_36697880/article/details/100660867

Elasticsearch的Mapping，定义了索引的结构，类似于关系型数据库的Schema。Elasticsearch的Setting定义中定义分片和副本数以及搜索的最关键组件，即：Analyzer，也就是分析器。

一、Dynamic Mapping及常用字段类型

mapping 的定义

Mapping类似于关系型数据库的Schema，主要包含以下内容：

定义索引中字段的名称
定义字段的数据类型，如：字符串、数字、boolean等
可对字段设置倒排索引的相关配置，如是否需要分词，使用什么分词器

从7.x开始，一个Mapping只属于一个索引的type

每个文档属于一个type
一个type有且仅有一个Mapping定义
从7.x开始，不需要在Mapping中指定type信息，默认type为_doc

常用字段类型

在Elasticsearch中，字段数据类型有以下常用的类型：

简单类型
- Text / Keyword - 文本 / 关键字
- Date - 日期
- Integer / Float - 数字 / 浮点
- Boolean - 布尔值
- IPv4 / IPv6 - ip地址
复杂类型，包括对象和数组
- 对象
- 数组
特殊类型，如地理信息
- geo_point / ...

Dynamic Mapping

Dynamic Mapping 翻译为动态Mapping：

在写入文档时，如果索引不存在，会自动创建索引
这种机制，使得我们无需手动定义mappings。Elasticsearch会自动根据文档信息，推算出字段的类型
有的时候，Elasticsearch可能会推算不对，如：地理位置信息
当类型推算得不对时，可能导致一些功能无法正常运行，如Range查询。

常用类型的自动识别规则

类型	规则
字符串	匹配到日期格式，设置成Date。字符串为数字时，当成字符串处理，但我们设置转换为数字。其他情况，类型就是Text，并且会增加keyword的子字段
布尔值	Boolean
浮点数	Float
整数	Long
对象	Object
数组	由第一个非空数值的类型决定
空值	忽略

下面是具体推断 demo


# 写入文档，查看 Mapping
PUT mapping_test/_doc/1
{
  "firstName": "Chan", -- Text
  "lastName":  "Jackie", -- Text
  "loginDate": "2018-07-24T10:29:48.103Z" -- Date
}
 
# Dynamic Mapping，推断字段的类型
PUT mapping_test/_doc/1
{
    "uid": "123", -- Text
    "isVip": false, -- Boolean
    "isAdmin": "true", -- Text
    "age": 19, -- Long
    "heigh": 180 -- Long
}
 
# 查看 Dynamic Mapping
GET mapping_test/_mapping

能否更改mapping的字段类型

分两种情况：

1、新增加的字段

dynamic设为true时，新增字段的文档写入时，Mapping同时被更新
dynamic设为false时，Mapping不会被更新，新增字段的数据无法被索引，但是会出现在_source中
dynamic设为strict，文档将写入失败

2、已存在的字段，一旦数据被写入，就不再支持修改字段定义

Lucene本身的限制

如果希望更改字段类型，必须Reindex api，即：重建索引。在数据量多的时候，开销将非常大


# dynamic设置为false
PUT idx1
{
    "mapping": {
        "_doc": {
            "dynamic": "false"
        }
    }
}
 
# 修改为dynamic为false
PUT idx1/_mapping
{
  "dynamic": false
}
 
# 查看索引
GET idx1/_mapping

dynamic属性和索引字段可变性的规则，我们可以总结如下：

\	true	false	strict
文档可索引	yes	yes	no
字段可索引	yes	no	no
Mapping被更新	yes	no	no

显式Mapping及常见参数

在本文的上一段落，我们的Mapping都是自动生成的。自动生成机制虽然方便，但是也可能导致一些问题。比如：生成的字段类型不正确，字段的附加属性不满足我们的需求，等等。这时，我们可以通过显式Mapping的方式来解决。

那么，我们如何进行显式Mapping的设置呢？

参考官网api，纯手写
为减少工作量，减少出错概率，可如下进行：
1. 创建一个临时index，写入一些样本数据
2. 通过访问Mapping API获取该临时文件的动态Mapping定义
3. 修改后，再使用此配置创建自己的索引
4. 删除临时索引

我们推荐使用第二种方式，效率高，且不容易出错。

控制当前字段是否被索引———index

index，可用于设置字段是否被索引，默认为true，false即为不可搜索。在下述例子中，mobile字段将不能被搜索到。


# index属性控制 字段是否可以被索引
PUT user_test
{
  "mappings": {
    "properties": {
      "firstName":{
        "type": "text"
      },
      "lastName":{
        "type": "text"
      },
      "mobile" :{
        "type": "text",
        "index": false
      }
    }
  }
}

常见参数 - index_options

记录索引级别。Text类型默认为positions，其他类型默认为docs。我们需要记住一条准则。

记录的内容越多，占用的存储空间就越大。

索引级别有以下几种，更细节的内容可参考官网

docs
freqs
positions
offsets

null_value设置

需要对Null值实现搜索时使用。只有keyword类型才支持设定null_value


# 设定Null_value
DELETE users
PUT users
{
    "mappings" : {
      "properties" : {
        "firstName" : {
          "type" : "text"
        },
        "lastName" : {
          "type" : "text"
        },
        "mobile" : {
          "type" : "keyword",
          "null_value": "NULL"
        }
      }
    }
}
 
PUT users/_doc/1
{
  "firstName":"Zhang",
  "lastName": "Fubing",
  "mobile": null
}
 
PUT users/_doc/2
{
  "firstName":"Zhang",
  "lastName": "Fubing2"
}
 
# 查看结果，有且仅有_id为2的记录
GET users/_search
{
  "query": {
    "match": {
      "mobile":"NULL"
    }
  }
}

copy_to

这个属性用于将当前字段拷贝到指定字段。

_all在7.x版本已经被copy_to所代替
可用于满足特定场景
copy_to将字段数值拷贝到目标字段，实现类似_all的作用
copy_to的目标字段不出现在_source中


DELETE user_test
 
#设置 Copy to
PUT user_test
{
  "mappings": {
    "properties": {
      "firstName":{
        "type": "text",
        "copy_to": "fullName"
      },
      "lastName":{
        "type": "text",
        "copy_to": "fullName"
      }
    }
  }
}
 
PUT user_test/_doc/1
{
  "firstName":"Ruan",
  "lastName": "Yiming"
}
 
POST user_test/_search?q=fullName:(Ruan Yiming)

数组类型

Elasticsearch不提供专门的数组类型。但任何字段，都可以包含多个相同类型的数值。


# 数组类型
PUT users/_doc/1
{
  "name":"onebird",
  "interests":"reading"
}
 
PUT users/_doc/1
{
  "name":"twobirds",
  "interests":["reading","music"]
}
 
POST users/_search
{
  "query": {
        "match_all": {}
    }
}
 
# interests字段还是text类型
GET users/_mapping

原文地址：https://www.cnblogs.com/lonelyxmas/p/11612454.html