文本摘要基础知识-for my little baby

先说一下自动文摘的方法。自动文摘（Automatic Summarization）的方法主要有两种：Extraction和Abstraction。其中Extraction是抽取式自动文摘方法，通过提取文档中已存在的关键词，句子形成摘要；Abstraction是生成式自动文摘方法，通过建立抽象的语意表示，使用自然语言生成技术，形成摘要。由于生成式自动摘要方法需要复杂的自然语言理解和生成技术支持，应用领域受限。所以本人学习的也是抽取式的自动文摘方法。

抽取式的摘要目前已经比较成熟，但是抽取质量及内容流畅度均差强人意。伴随着深度学习的研究，生成式摘要的质量和流畅度都有很大的提升，但目前也受到原文本长度过长、抽取内容不佳等的限制。

　目前主要方法有：

基于统计：统计词频，位置等信息，计算句子权值，再简选取权值高的句子作为文摘，特点：简单易用，但对词句的使用大多仅停留在表面信息。
基于图模型：构建拓扑结构图，对词句进行排序。例如，TextRank/LexRank
基于潜在语义：使用主题模型，挖掘词句隐藏信息。例如，采用LDA，HMM
基于整数规划：将文摘问题转为整数线性规划，求全局最优解。

生成式文本摘要：

2016年Facebook AI Research（FAIR）发表了《A Convolutional Encoder Model forNeural Machine Translation》，对Encoder部分采用似乎不擅长处理序列信息的卷积网络（CNN）来实现，结果在翻译、摘要任务中，也达到了当年的最高水准。

2017年5月，还是FAIR，发布了《ConvolutionalSequence to Sequence Learning》，第一次实现了Encoder、Decoder都采用CNN单元，使得网络在训练阶段，可以并行计算，效率进一步提升。同时引入了Multi-step Attention（多跳注意），相比之前只在最后一层生成翻译时往回看，多跳注意使得Decoder阶段生成每一层的语义向量时都往回看，进一步提升了准确度。同时还有一些其他的Trick：引入单词的位置信息，残差网络，计算Attention时候对高层语义信息和低层细节信息，兼收并取等。最后在生成翻译和摘要时，速度相比之前最快的网络，提升了近9倍。同时在WMT-14英德、英法两项的单模型训练结果中，BLEU得分达到了25.16、40.46，其中英法翻译也是迄今为止的最高得分。