python函数——Keras分词器Tokenizer

0. 前言

Tokenizer是一个用于向量化文本，或将文本转换为序列（即单个字词以及对应下标构成的列表，从1算起）的类。是用来文本预处理的第一步：分词。结合简单形象的例子会更加好理解些。

1. 语法

官方语法如下1：

Code.1.1 分词器Tokenizer语法

keras.preprocessing.text.Tokenizer(num_words=None,
                                   filters='!"#$%&()*+,-./:;<=>?@[]^_`{|}~tn',
                                   lower=True,
                                   split=" ",
                                   char_level=False)

1.1 构造参数

num_words：默认是None处理所有字词，但是如果设置成一个整数，那么最后返回的是最常见的、出现频率最高的num_words个字词。
filters：过滤一些特殊字符，默认上文的写法就可以了。
lower：全部转为小写
split：字符串，单词的分隔符，如空格

1.2 返回值

字符串列表

1.3 类方法

下面是相关的类方法，部分示例在下一节中均有描述应用。

方法	参数	返回值
fit_on_texts(texts)	texts：要用以训练的文本列表	-
texts_to_sequences(texts)	texts：待转为序列的文本列表	序列的列表，列表中每个序列对应于一段输入文本
texts_to_sequences_generator(texts)	texts：待转为序列的文本列表	本函数是texts_to_sequences的生成器函数版，返回每次调用返回对应于一段输入文本的序列
texts_to_matrix(texts, mode)	texts：待向量化的文本列表；mode：‘binary’，‘count’，‘tfidf’，‘freq’之一，默认为‘binary’	形如(len(texts), nb_words)的numpy array
fit_on_sequences(sequences)	sequences：要用以训练的序列列表	-
sequences_to_matrix(sequences)	sequences：待向量化的序列列表； mode：‘binary’，‘count’，‘tfidf’，‘freq’之一，默认为‘binary’	返回值：形如(len(sequences), nb_words)的numpy array

1.4 属性

word_counts:字典，将单词（字符串）映射为它们在训练期间出现的次数。仅在调用fit_on_texts之后设置。
word_docs: 字典，将单词（字符串）映射为它们在训练期间所出现的文档或文本的数量。仅在调用fit_on_texts之后设置。
word_index: 字典，将单词（字符串）映射为它们的排名或者索引。仅在调用fit_on_texts之后设置。
document_count: 整数。分词器被训练的文档（文本或者序列）数量。仅在调用fit_on_texts或fit_on_sequences之后设置。

2. 简单示例

Code.2.1 简单示例

>>>from keras.preprocessing.text import Tokenizer
Using TensorFlow backend.

#  创建分词器 Tokenizer 对象
>>>tokenizer = Tokenizer()

#  text
>>>text = ["今天 北京 下 雨 了", "我 今天 加班"]

#  fit_on_texts 方法
>>>tokenizer.fit_on_texts(text)

#  word_counts属性
>>>tokenizer.word_counts
OrderedDict([('今天', 2),
             ('北京', 1),
             ('下', 1),
             ('雨', 1),
             ('了', 2),
             ('我', 1),
             ('加班', 1)])

#  word_docs属性
>>>tokenizer.word_docs
defaultdict(int, {'下': 1, '北京': 1, '今天': 2, '雨': 1, '了': 2, '我': 1, '加班': 1})

#  word_index属性
>>>tokenizer.word_index
{'今天': 1, '了': 2, '北京': 3, '下': 4, '雨': 5, '我': 6, '加班': 7}

#  document_count属性
>>>tokenizer.document_count
2

3. 常用示例

还以上面的tokenizer对象为基础，经常会使用texts_to_sequences()方法和序列预处理方法 keras.preprocessing.sequence.pad_sequences一起使用

有关pad_sequences用法见python函数——序列预处理pad_sequences()序列填充

Code.3.1 常用示例

>>>tokenizer.texts_to_sequences(["下 雨 我 加班"])
[[4, 5, 6, 7]]

>>>keras.preprocessing.sequence.pad_sequences(tokenizer.texts_to_sequences(["下 雨 我 加班"]), maxlen=20)
array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 4, 5, 6, 7]],dtype=int32)

https://keras-cn.readthedocs.io/en/latest/preprocessing/text/#_1