Elasticsearch中什么是 tokenizer、analyzer、filter ?

Elastic search 是一个能快速帮忙建立起搜索功能的，最好之一的引擎。

搜索引擎的构建模块大都包含 tokenizers（分词器）, token-filter（分词过滤器）以及 analyzers（分析器）。

这就是搜索引擎对数据处理和存储的方式，所以，通过上面的3个模块，数据就可以被轻松快速的查找。

下面讨论下， tokenizers（分词器）, token-filter（分词过滤器）以及 analyzers（分析器）是如何工作的?

Tokenizers(分词器）

分词，就是将一个字符串，按照特定的规则打散为多个小的字符串的过程，按照专业术语说法就是就是打散为token（符号）。

举个例子：

Whitespace tokenizer （空格分词器）空格分词器将字符串，基于空格来打散。还有很多其他的分词器，比如Letter tokenizer（字母分词器），字母分词器遇到非字母类型的符号，然后打散字符串。例如：

Input => “quick 2 brown’s fox “
Output => [quick,brown,s,fox]

它仅仅保留字母，并且一处所有特殊字符以及数字，所以叫做字母分词器。

Token Filters（字符过滤器）

字符过滤器，是操作分词器处理后的字符结果，并且相应地修改字符。举个简单的例子 Lowercase filter : 转小写过滤器，会将所有字符字母转为小写 Input => “QuicK” Output => “quick”

Stemmer filter:除梗过滤器，根据特定的规则（可配置），会除去单词的一部分内容。

例子 1: 去除单词的时态

Input => “running”
Output => “run”

例子 2: 去除复数

Input => “shoes”
Output => “shoe”

Analyzer（分析器）

分析器是分词器和分词过滤器的结合，可以被应用到Elasticsearch的任何字段用来分析。这里有很多Elasticsearch内置的分析器。

这里列举几个官方内置的分析器：

Standard Analyzer（标准分析器）标准分析器是最常被使用的分析器，它是基于统一的Unicode 字符编码标准的文本进行分割的算法，同时它也会消除所有的标点符号，将分词项小写，消除通用词等。例如:

Input => “The 2 QUICK Brown-Foxes jumped over the lazy dog’s bone.”
Output => [quick, brown, fox, jump, over, lazy,dog, bone]

主题:移除所有的标点符号，数字，停用词比如 the, s 而对于中文，标准分析器则是单字分割

Whitespace Analyzer（空格分析器）:空格分析器基于空格来划分文本。它内部使用whitespace tokenizer来切割数据. 例如:

Input => “quick brown fox” 
Output => [quick, brown, fox]

自定义Analyzer

就上面所说，分析器是分词器和过滤器的结合。所以，你可以按照你的需求定义你自己的分析器，从可以使用的分词器和过滤器。那么如何定义呢？举个例子

{  
   "analyzer":{  
      "my_custom_analyzer":{  
         "type":"custom",  // Define the type as custom analyzer
          "tokenizer":"standard",//Define the tokenizer 
           "filter":[  // Define the toke Filter
            "uppercase"
         ]         
      }
   }
}

上面这个分析器的设置如下：

name — my_custom_analyzer
tokenizer — standard
filter — uppercase

运行结果：

Input => “Quick Brown Fox”
Output => [QUICK, BROWN, FOX]

如下的图，可以帮你更好地理解分析器处理数据的过程：

几个自定义分析器的例子如下：

带有停用词和同义词的分析器

{  
   "settings":{  
      "analysis":{  
         "analyzer":{  
            "my_custom_analyzer":{  
               "type":"custom",
               "tokenizer":"standard",
               "filter":[  
                  "lowercase",
                  "english_stop",
                  "synonyms"
               ]
            }
         },
         "filter":{  
            "english_stop":{  
               "type":"stop",
               "stopwords":"_english_"
            },
            "synonym":{  
               "type":"synonym",
               "synonyms":[  
                  "i-pod, ipod",
                  "universe, cosmos"
               ]
            }
         }
      }
   }
}

运行如下：

Input => I live in this Universe
Output => [live, universe]

单词 [I, in , this] 都是停用词，被移除了，因为这些词在搜索的时候并没有什么用

带有除梗和停用词的分析器

{  
   "settings":{  
      "analysis":{  
         "analyzer":{  
            "my_custom_analyzer":{  
               "type":"custom",
               "tokenizer":"standard",
               "filter":[  
                  "lowercase",
                  "english_stop",
                  "english_stemmer"
               ]
            }
         },
         "filter":{  
            "english_stemmer":{  
               "type":"stemmer",
               "stopwords":"english"
            },
            "english_stop":{  
               "type":"stop",
               "stopwords":"_english_"
            }
         }
      }
   }
}

运行如下：

Input => “Learning is fun”
Output => [learn, fun]

单词 “[is]” 作为停用词被移除， “learning” 除梗后变为 “learn”.

3)带有特殊符号映射为特定单词的分析器

{  
   "settings":{  
      "analysis":{  
         "analyzer":{  
            "my_custom_analyzer":{  
               "type":"custom",
               "char_filter":[  
                  "replace_special_characters"
               ],
               "tokenizer":"standard",
               "filter":[  
                  "lowercase"
               ]
            }
         },
         "char_filter":{  
            "replace_special_characters":{  
               "type":"mapping",
               "mappings":[  
                  ":) => happy",
                  ":( => sad",
                  "& => and"
               ]
            }
         }
      }
   }
}

运行如下：

Input => Good weekend :)
Output => [good, weekend, happy]
Input => Pride & Prejudice
Output => [Pride, and, Prejudice]

请注意 : 这里我们使用char_filter而不是token_filter ，因为char_filter 在tokenizer 前会运行，因此避免了特殊字符，比如笑脸还有&连接符被后面的tokenizer 分隔开，或者token_filter移除。因此，你可以根据自己的需求来配置分析器，然后来获取更好地搜索结果。