Elastic search N-gram tokenizer
时间:2022-07-25
本文章向大家介绍Elastic search N-gram tokenizer,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
N-gram tokenizer
ngram 分词器,首先将text文本切分,执行时采用N-gram切割算法。
N-grams 算法,就像一个穿越单词的滑窗,是一个特定长度的持续的字符序列。这个适合于那些不太实用空格符的语言,或者有长的复合单词的语言,比如德语。
举个例子: 默认的, ngram tokenizer对初始化的text文本进行最小长度为1,最大长度为2的处理。
POST _analyze
{
"tokenizer": "ngram",
"text": "Quick Fox"
}
上面的配置输出如下:
[ Q, Qu, u, ui, i, ic, c, ck, k, "k ", " ", " F", F, Fo, o, ox, x ]
配置
- min_gram :
在单词中最小字符长度,且默认为1
- max_gram
在单词中最大字符长度,且默认为2
- 符号分类
字母— 例如 a, b, ï or 京 数字— 例如 3 or 7 空格— 例如 " " or “n” 标签符号— 例如 ! or " 象型符— 例如 $ or √ 自定义符号 — 使用 custom_token_chars 来设置自己自定义的符号 custom_token_chars
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 视频监控系统视频上云解决方案EasyCVR集成海康EHome私有协议系列——开启存储服务
- 设计模式~责任链模式
- 大数据计算的基石——MapReduce
- SPA单页应用的优缺点
- 《JavaScript 模式》读书笔记(7)— 设计模式1
- CenterNet测试推理过程
- Docker学习笔记[nginx]
- MySQL集群搭建方案(PXC)
- Java8——行为参数化传递代码
- 【设计模式系列(二)】彻底搞懂单例模式
- 【设计模式系列(一)】彻底搞懂工厂模式
- 深入理解Arrays.sort()底层实现
- 这500多个字段引起的问题,大部分DBA都搞不定
- Java连接Mongodb工具类
- SpringBoot中集成jwt实现前后端分离的token验证机制