LDA模型理解（一）

最近读了一篇发布于AIII2018的关于深度学习的文章，看了别人的论文阅读发现里面出现一个名词叫LDA模型。关于LDA有两种含义，一种是线性判别分析，一种是概率主题模型，本文讲后者。

LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出，是一种主题模型，通过无监督学习方法发现文本中隐含的主题信息，目的是要以无指导学习的方法从文本中发现隐含的语义维度，即“topic”结构。文本的隐性语义表示可以对“一词多义”和“一义多词”的语义现象进行建模，这使得搜索引擎系统得到的搜索结果与用户的query在语义层次上match，而不是仅仅只是在词汇层次上出现交际。

什么是主题模型呢？主题模型是对文本中隐含主题的一种建模方法；每个主题其实是词表上单词的概率分布；主题模型是一种生成模型，一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到的PLSA生成模型；
常见的主题模型有3种：
(1) PLSA(Probabilistic Latent Semantic Analysis)
(2) LDA(Latent Dirichlet Allocation)
(3) L-LDA(Label Latent Dirichlet Allocation)
本文主要讨论第二种LDA模型：

给PLSA模型加上贝叶斯框架便是LDA。什么又是贝叶斯框架和PLSA模型呢？

1.先验知识
在说贝叶斯框架之前先了解一下什么是先验知识，举个例子：想要提取论文中的关键词，如果由作者进行标注，标注结果带有标注者的主观色彩，关键词不一定能反应其论文的核心；用TextRank、TF-IDF等算法标注也只是对候选关键词进行排序仅考虑了论文本身的统计特征，未考虑到候选关键词的背景知识。针对以上情况，我们需要考虑领域特征，在本领域特征基础上，进行关键词优化。其领域特征的背景就是先验知识。再打个比方，如果小明每天上4节课，那么小明每天上课多于3节。我们通过前一句话知道后一句是真的，因为他可以仅仅依靠推理得出来。与先验知识不同的后验知识，继续小明的例子，小明每天上3-7节课。这是一个必须验证才能知道真假的一句话，它不能单独通过推理得到。LDA中的先验知识有：二项分布、Gamma函数、Beta分布、多项分布、Dirichlet分布、马尔科夫链链、MCMA、Gibbs Sampling等。
2.贝叶斯
首先，贝叶斯是一位与牛顿同时代的牧师，是一位业余的数学家，他发现了古典统计学当中的一些缺点，从而提出了自己的“贝叶斯统计学”引入了（先验概率），伴随着计算机的发展，统计学家发现使用贝叶斯理论能解决许多之前不能解决的问题，从而贝叶斯理论开始被认可。
贝叶斯告诉我们要预测一件事情时，我们需要的是首先根据已有的经验和知识推断一个先验概率，然后在新证据不断积累的情况下调整这个概率，整个通过积累证据来得到一个事件发生概率的过程。
贝叶斯一旦被计算机界所使用，他就变成了自动化的计算机算法，也就是机器学习。

PLSA模型和LDA笔者要在下篇文章给出读书笔记，此篇文章纯属笔者个人所思，如有不正确的地方，欢迎大家批评指出。