Elasticsearch Analyzer原理分析并实现中文分词

首先，我们知道倒排索引的原理，我们需要构建一个单词词典，但是这个词典里面的数据怎么来呢？我们需要对输入的东西进行分词。这个ES已经考虑过了，所以它内置了一些分词器，但是中国文化，博大精深，有时候自己断句都会有误差，所以我们会用一些国人的插件进行中文分词。这篇文章的重点也就是介绍ES分词原理、内置分词和中文分词。

ES分词是如何实现？

Analysis（分析）是通过Analyzer（分析器）实现的，分析也是有步骤的，所以我们说一下Analyzer的组成。

分词器主要由三部分组成：

Character Filters 字符过滤器 比方说剔除html代码、特殊符号等等，可以有多个字符过滤器
Tokenizer 分词器 对语句进行分词，只能有一个
Token Filter token过滤器 对词进行过滤、或者转小写、等等，可以有多个token filter，依次执行

ES内置分词器分析

我们知道了分词器的组成，只需要再知道它的一些实现即可。我们也列出来方便查看

standard

默认的分词器，按词分类并且小写处理。这个我们举个例子，其余大家照葫芦画瓢就行

我这里是利用Kibana的dev tool进行api调试，大家也可以用postman等工具进行测试。ES提供_analyze api来测试分词。

GET _analyze
{
  "analyzer": "standard", # 分词器
  "text":     "The quick brown fox." # 输入的语句
}

simple

安照非字母切分，不是字母就剔除了，包括标点符号数字等，并对单词进行小写处理

stop

对输入进行小写处理，并将停用词过滤，例如这些单词（the，a, is)

whitespace

按空格切分

keyword

不分词，当成一整个 term 输出

pattern

通过正则表达式进行分词，默认是 W+(非字母进行分隔)

Language

举个例子按英文拆分，它支持不同的语言，例如：arabic, armenian, basque, bengali, bulgarian, catalan, czech, dutch, english, finnish, french, galician, german, hindi, hungarian, indonesian, irish, italian, latvian, lithuanian, norwegian, portuguese, romanian, russian, sorani, spanish, swedish, turkish.

#english
GET _analyze
{
  "analyzer": "english",
  "text": "I'm Aoppp 憧憬"
}

上面例子典型对中文就不太友好，中文分词要比英文分词难，英文都以空格分隔，中文理解通常需要上下文理解才能有正确的理解，比如 [苹果，不大好吃]和[苹果，不大，好吃]，这两句意思就不一样。

中文分词

这个中文分词插件也不少，我也列举一些给大家。

analysis-icu

地址：https://github.com/elastic/elasticsearch-analysis-icu

直接安装就行 bin/plugin install analysis-icu

analysis-ik

地址：https://github.com/medcl/elasticsearch-analysis-ik

IK Analysis插件将Lucene IK分析器集成到elasticsearch中，支持自定义词典。

elasticsearch-thulac-plugin

地址：https://github.com/microbun/elasticsearch-thulac-plugin

THULAC（THU Lexical Analyzer for Chinese）由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包，具有中文分词和词性标注功能。

这里的话ik还不错，可以自定义词典等等，我来用它举个例子吧

安装

这里我的ES是7.6的，你们要安装对应版本改一下就行

./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.6.0/elasticsearch-analysis-ik-7.6.0.zip

安装完成重启一下ES

效果

GET _analyze
{
  "analyzer": "ik_max_word", # 穷进可能
  "text": "这是憧憬的技术分享博客啊"
}

比因为的单字拆分还是漂亮。