原文：Word2Vec Tutorial - The Skip-Gram Model

这篇教程主要讲述了Word2Vec中的skip gram模型，主要目的是避免普遍的浅层介绍和抽象观点，而是更加详细地探索Word2Vec。现在我们开始研究skip gram模型吧

模型

skip-gram实际上是非常简单的神经网络模型形式；我认为任何所有微小的调整和变化都会使解释困扰。

我们进一步看，你可能在机器学习使用Word2Vec时用到下面一个技巧：使用一个隐藏层的简单神经网络来执行某个任务，但是接下来我们将不会在训练模型任务时使用那样的神经网络，而是仅仅是使用它来学习隐层神经网络的权重，在Word2Vec中指的是“词向量”。

另一个你可能在无监督学习中看到这种技巧，在无监督学习中，你训练一个自动编码器来将输入向量“压缩”到隐藏层，然后将它“解压”到的原始输出层。在训练完它后，你舍去输出层（解压步骤），只使用隐藏层的数据——这是一个不需要标记训练数据就能学习好图像特征的技巧。

“伪”任务

现在我们需要讨论一下这种“伪”任务，我们要构建并运行神经网络，然后我们间接地获得到的后面所需的词向量。

我们要训练skip-gram神经网络做以下任务：给出一个句子中间的某个单词（输入词），观察输入单词旁边的单词并随机选择一个。而我们训练的神经网络将告诉我们词汇表中每个单词被选作为“邻近单词”（nearby word）的概率。

这里所说的“邻近”其实与算法中的一个“窗口大小”(window size)参数有关。一般窗口大小为5，意思是中心词前后的5个单词（一共10个单词）。

输出概率与输入单词与每个词汇表单词邻近程度相关。举例来说，训练的神经网络的输入单词为“苏联”，那么像“联盟”和“俄罗斯”的输出概率将会远大于像“西瓜”和“袋鼠”不相关单词的概率。

我们将通过“喂养”在训练文档中找到的“单词对”（word pair）来训练神经网络。下面的例子显示了一些训练样本（单词对），句子为“The quick brown fox jumps over the lazy dog.”，窗口大小为2，蓝色突出显示的是输入单词。

神经网络将会从显示的单词对的次数学习统计信息。例如，神经网络可能会得到更多的训练样本（“苏联”，“联盟”）而不是（“苏联”，“北美野人”）。当模型训练结束时，当你将“苏联”作为输入时，然后输入为“联盟”或“俄罗斯”的概率比输出为“野人”的概率更高。

思考下，这些单词应该怎么被表示哪？首先，我们不能够将单词作为一个字符串输入到神经网络，所以我们需要一种方式去表示单词。为了达到目的，我们从训练文档中创建一个单词词汇表，假如我们现在有一个具有10000个不同单词的词汇表。

我们将输入单词比如“蚂蚁”(ants)表示为一个one-hot向量，这种向量有10000个元素（词汇表中的每个单词都被表示为这种形式）。1 的位置对应该词在词典中的位置，其他全为0。下面是我们神经网络的结构：

在隐藏层中没有使用激活函数，而在输出层使用了softmax，我们稍后在讨论这个原因。

假如，我们要学习有关词向量的300个特征（比如词性，语义等等），那么隐藏层结构将会表示为一个权重矩阵：10000行（代表着词汇表中的每个单词）和300列（代表每一个隐层的神经单元）。

300个特征是谷歌基于谷歌新闻数据集训练的模型（你可以在这里下载）。特征的数量是一个你调试应用的“超参数”（尝试不同的值来产生更好的结果）。下面是权重矩阵，矩阵的每一行代表了我们词汇表中的一个单词。

现在你可能反问自己，-“one hot向量几乎全部是0，那么它的作用是什么呢？”如果你将一个1×10000 one hot向量乘以10000×300的矩阵，那么就会有效地选中矩阵中与1对应的行。下面是一个例子：

这就意味着模型中的隐藏层其实运作为一个单词查找表，隐藏层的输出为输入单词的“词向量”。

隐藏层产生的1×300的词向量将会传送到输出层，这个输出层是一个softmax regressio分类器，其要领就是每一个输出神经单元将会产生一个介于0到1的输出，并且所有输出值的和为1。

每个输出单元有一个权重矩阵，然后与来自隐藏层的词向量相乘，然后对结果运用exp(x)函数。最后，为了将输入结果加起来为1，我们将结果除以10000个输出节点的所有之和。下面是单词“car”输出单元的计算。