第13天：NLP补充——RNN算法

RNN算法

RNN（Recurrent Neural Network）是一类用于处理序列数据的神经网络。首先给大家介绍什么是序列数据。时间序列数据是指在不同时间点上收集到的数据，这类数据反映了某一事物、现象等随时间的变化状态或程度。这是时间序列数据的定义，当然这里也可以不是时间，比如文字序列，但总归序列数据有一个特点——后面的数据跟前面的数据有关系。我们之所以给大家补充RNN，是因为RNN在自然语言处理这一块应用的特别广泛，尤其是其中的LSTM更是在自然语言处理中的文本分类用的较为多，因此，大家最好将其熟练掌握。

RNN的结构及变体

如果我们学过神经网络的话，大概都清楚常见的神经网络包括输入层、隐层、输出层， 通过激活函数控制输出，层与层之间通过权值连接。激活函数是事先确定好的，那么神经网络模型通过训练“学“到的东西就蕴含在“权值“中。基础的神经网络只在层与层之间建立了权连接，RNN最大的不同之处就是在层之间的神经元之间也建立的权连接。具体如图所示：

这是一个标准的RNN结构图，图中每个箭头代表做一次变换，也就是说箭头连接带有权值。左侧是折叠起来的样子，右侧是展开的样子，左侧中h旁边的箭头代表此结构中的“循环“体现在隐层。在展开结构中我们可以观察到，在标准的RNN结构中，隐层的神经元之间也是带有权值的。也就是说，随着序列的不断推进，前面的隐层将会影响后面的隐层。图中O代表输出，y代表样本给出的确定值，L代表损失函数，我们可以看到，“损失“也是随着序列的推荐而不断积累的。除上述特点之外，标准RNN的还有以下特点： 1、权值共享，图中的W全是相同的，U和V也一样。 2、每一个输入值都只与它本身的那条路线建立权连接，不会和别的神经元连接。以上是RNN的标准结构，然而在实际中这一种结构并不能解决所有问题，例如我们输入为一串文字，输出为分类类别，那么输出就不需要一个序列，只需要单个输出。具体如图所示：

同样的，我们有时候还需要单输入但是输出为序列的情况。那么就可以使用如下结构：

还有一种结构是输入虽是序列，但不随着序列变化，就可以使用如下结构：

原始的N vs N RNN要求序列等长，然而我们遇到的大部分问题序列都是不等长的，如机器翻译中，源语言和目标语言的句子往往并没有相同的长度。下面我们来介绍RNN最重要的一个变种：N vs M。这种结构又叫Encoder-Decoder模型，也可以称之为Seq2Seq模型。

从名字就能看出，这个结构的原理是先编码后解码。左侧的RNN用来编码得到c，拿到c后再用右侧的RNN进行解码。得到c有多种方式，最简单的方法就是把Encoder的最后一个隐状态赋值给c，还可以对最后的隐状态做一个变换得到c，也可以对所有的隐状态做变换。

除了以上这些结构以外RNN还有很多种结构，用于应对不同的需求和解决不同的问题。还想继续了解可以看一下下面这个博客，里面又介绍了几种不同的结构。但相同的是循环神经网络除了拥有神经网络都有的一些共性元素之外，它总要在一个地方体现出“循环“，而根据“循环“体现方式的不同和输入输出的变化就形成了多种RNN结构。

标准RNN的前向输出流程

上面介绍了RNN有很多变种，但其数学推导过程其实都是大同小异。这里就介绍一下标准结构的RNN的前向传播过程。

再来给大家介绍一下各个符号的含义：x是输入，h是隐层单元，o为输出，L为损失函数，y为训练集的标签。这些元素右上角带的t代表t时刻的状态，其中需要注意的是，因策单元h在t时刻的表现不仅由此刻的输入决定，还受t时刻之前时刻的影响。V、W、U是权值，同一类型的权连接权值相同。有了上面的解释，前向传播算法其实非常简单，对于t时刻：

其中delta()为激活函数，一般来说会选择tanh函数，b为偏置。即t时刻的输出就更为简单：

最终模型的预测输出为：

其中delta为激活函数，通常RNN用于分类，故这里一般用softmax函数。

RNN的训练方法——BPTT

BPTT（back-propagation through time）算法是常用的训练RNN的方法，其实本质还是BP算法，只不过RNN处理时间序列数据，所以要基于时间反向传播，故叫随时间反向传播。BPTT的中心思想和BP算法相同，沿着需要优化的参数的负梯度方向不断寻找更优的点直至收敛。综上所述，BPTT算法本质还是BP算法，BP算法本质还是梯度下降法，那么求各个参数的梯度便成了此算法的核心。

B再次拿出这个结构图观察，需要寻优的参数有三个，分别是U、V、W。与BP算法不同的是，其中W和U两个参数的寻优过程需要追溯之前的历史数据，参数V相对简单只需关注目前，那么我们就来先求解参数V的偏导数。

其实这个式子看起来简单但是求解起来很容易出错，因为其中嵌套着激活函数函数，是复合函数的求道过程。RNN的损失也是会随着时间累加的，所以不能只求t时刻的偏导。

W和U的偏导的求解由于需要涉及到历史数据，其偏导求起来相对复杂，我们先假设只有三个时刻，那么在第三个时刻 L对W的偏导数为：

相应的，L在第三个时刻对U的偏导数为：

可以观察到，在某个时刻的对W或是U的偏导数，需要追溯这个时刻之前所有时刻的信息，这还仅仅是一个时刻的偏导数，上面说过损失也是会累加的，那么整个损失函数对W和U的偏导数将会非常繁琐。虽然如此但好在规律还是有迹可循，我们根据上面两个式子可以写出L在t时刻对W和U偏导数的通式：

整体的偏导公式就是将其按时刻再一一加起来。前面说过激活函数是嵌套在里面的，如果我们把激活函数放进去，拿出中间累乘的那部分：

或是

我们会发现累乘会导致激活函数导数的累乘，进而会导致“梯度消失“和“梯度爆炸“现象的发生。究其原因是两个激活函数：以下是sigmoid函数的函数图和导数图：

这是tanh函数的函数图和导数图。

它们二者是何其的相似，都把输出压缩在了一个范围之内。他们的导数图像也非常相近，我们可以从中观察到，sigmoid函数的导数范围是(0,0.25]，tanh函数的导数范围是(0,1]，他们的导数最大都不大于1。这就会导致一个问题，在上面式子累乘的过程中，如果取sigmoid函数作为激活函数的话，那么必然是一堆小数在做乘法，结果就是越乘越小。随着时间序列的不断深入，小数的累乘就会导致梯度越来越小直到接近于0，这就是“梯度消失“现象。其实RNN的时间序列与深层神经网络很像，在较为深层的神经网络中使用sigmoid函数做激活函数也会导致反向传播时梯度消失，梯度消失就意味消失那一层的参数再也不更新，那么那一层隐层就变成了单纯的映射层，毫无意义了，所以在深层神经网络中，有时候多加神经元数量可能会比多家深度好。讲到这里，你可能会有些许疑惑：RNN明明与深层神经网络不同，RNN的参数都是共享的，而且某时刻的梯度是此时刻和之前时刻的累加，即使传不到最深处那浅层也是有梯度的。这当然是对的，但如果我们根据有限层的梯度来更新更多层的共享的参数一定会出现问题的，因为将有限的信息来作为寻优根据必定不会找到所有信息的最优解。之前说过我们多用tanh函数作为激活函数，那tanh函数的导数最大也才1啊，而且又不可能所有值都取到1，那相当于还是一堆小数在累乘，还是会出现“梯度消失“，那为什么还要用它做激活函数呢？原因是tanh函数相对于sigmoid函数来说梯度较大，收敛速度更快且引起梯度消失更慢。还有一个原因是sigmoid函数还有一个缺点，Sigmoid函数输出不是零中心对称。sigmoid的输出均大于0，这就使得输出不是0均值，称为偏移现象，这将导致后一层的神经元将上一层输出的非0均值的信号作为输入。关于原点对称的输入和中心对称的输出，网络会收敛地更好。 RNN的特点本来就是能“追根溯源“利用历史数据，现在告诉我可利用的历史数据竟然是有限的，这就令人非常难受，解决“梯度消失“是非常必要的。这里说两种改善“梯度消失”的方法：首先是选取更好的激活函数、其次是改变传播结构。针对选取更好的激活函数，我们一般选取ReLU函数作为激活函数，ReLU函数的图像为：

ReLU函数的左侧导数为0，右侧导数恒为1，这就避免了小数的连乘，但反向传播中仍有权值的累乘，所以说ReLU函数不能说完全解决了“梯度消失”现象，只能说改善。有研究表明，在RNN中使用ReLU函数配合将权值初始化到单位矩阵附近，可以达到接近LSTM网络的效果。但恒为1的导数容易导致“梯度爆炸“，但设定合适的阈值可以解决这个问题。还有一点就是如果左侧横为0的导数有可能导致把神经元学死，不过设置合适的步长（学习率）也可以有效避免这个问题的发生。对于改变传播结构，LSTM结构就是传统RNN的改善。因此，sigmoid函数的缺点： 1、导数值范围为(0,0.25]，反向传播时会导致“梯度消失“。tanh函数导数值范围更大，相对好一点。 2、sigmoid函数不是0中心对称，tanh函数是，可以使网络收敛的更好。

LSTM算法

接下来给大家详细介绍LSTM的相关内容。长短期记忆网络是RNN的一种变体，RNN由于梯度消失的原因只能有短期记忆，LSTM网络通过精妙的门控制将加法运算带入网络中，一定程度上解决了梯度消失的问题。只能说一定程度上，过长的序列还是会出现“梯度消失”，因此LSTM叫长一点的“短时记忆”。

长期依赖（Long-Term Dependencies）问题

RNN 的关键点之一就是他们可以用来连接先前的信息到当前的任务上，有时候，我们仅仅需要知道先前的信息来执行当前的任务。例如，我们有一个语言模型用来基于先前的词来预测下一个词。如果我们试着预测 “the clouds are in the sky” 最后的词，我们并不需要任何其他的上下文 —— 因此下一个词很显然就应该是 sky。在这样的场景中，相关的信息和预测的词位置之间的间隔是非常小的，RNN 可以学会使用先前的信息。

但是同样会有一些更加复杂的场景。假设我们试着去预测“I grew up in France… I speak fluent French”最后的词。当前的信息建议下一个词可能是一种语言的名字，但是如果我们需要弄清楚是什么语言，我们是需要先前提到的离当前位置很远的 France 的上下文的。这说明相关信息和当前预测位置之间的间隔就肯定变得相当的大。但是，在这个间隔不断增大时，RNN 会丧失学习到连接如此远的信息的能力。

在理论上，RNN 绝对可以处理这样的长期依赖问题。人们可以仔细挑选参数来解决这类问题中的最初级形式，但在实践中，RNN 肯定不能够成功学习到这些知识。Bengio, et al. (1994)等人对该问题进行了深入的研究，他们发现一些使训练 RNN 变得非常困难的相当根本的原因。不过，LSTM 并没有这个问题。

LSTM 网络

Long Short Term 网络—— 一般就叫做 LSTM ——是一种 RNN 特殊的类型，可以学习长期依赖信息。LSTM 由Hochreiter & Schmidhuber (1997)提出，并在近期被Alex Graves进行了改良和推广。在很多问题，LSTM 都取得相当巨大的成功，并得到了广泛的使用。LSTM 通过刻意的设计来避免长期依赖问题。记住长期的信息在实践中是 LSTM 的默认行为，而非需要付出很大代价才能获得的能力！所有 RNN 都具有一种重复神经网络模块的链式的形式。在标准的 RNN 中，这个重复的模块只有一个非常简单的结构，例如一个 tanh 层。

LSTM 同样是这样的结构，但是重复的模块拥有一个不同的结构。不同于单一神经网络层，整体上除了h在随时间流动，细胞状态c也在随时间流动，细胞状态c就代表着长期记忆。

LSTM 的核心思想

LSTM 的关键就是细胞状态，水平线在图上方贯穿运行。细胞状态类似于传送带。直接在整个链上运行，只有一些少量的线性交互。信息在上面流传保持不变会很容易。

LSTM 有通过精心设计的称作为“门”的结构来去除或者增加信息到细胞状态的能力。门是一种让信息选择式通过的方法。他们包含一个 sigmoid 神经网络层和一个 pointwise 乘法操作。

Sigmoid 层输出 0 到 1 之间的数值，描述每个部分有多少量可以通过。0 代表“不许任何量通过”，1 就指“允许任意量通过”！LSTM 拥有三个门，来保护和控制细胞状态。

逐步理解 LSTM

在我们 LSTM 中的第一步是决定我们会从细胞状态中丢弃什么信息。这个决定通过一个称为遗忘门完成。该门会读取h(t-1)和xt，输出一个在 0 到 1 之间的数值给每个在细胞状态C(t-1)中的数字。1 表示“完全保留”，0 表示“完全舍弃”。让我们回到语言模型的例子中来基于已经看到的预测下一个词。在这个问题中，细胞状态可能包含当前主语的性别，因此正确的代词可以被选择出来。当我们看到新的主语，我们希望忘记旧的主语。

这里可以抛出两个问题：这个门怎么做到“遗忘“的呢？怎么理解？既然是遗忘旧的内容，为什么这个门还要接收新的xt？对于第一个问题，“遗忘“可以理解为“之前的内容记住多少“，其精髓在于只能输出（0，1）小数的sigmoid函数和粉色圆圈的乘法，LSTM网络经过学习决定让网络记住以前百分之多少的内容。对于第二个问题就更好理解，决定记住什么遗忘什么，其中新的输入肯定要产生影响。下一步是确定什么样的新信息被存放在细胞状态中。这里包含两个部分。第一，sigmoid 层称 “输入门层” 决定什么值我们将要更新。然后，一个 tanh 层创建一个新的候选值向量，非C 会被加入到状态中。下一步，我们会讲这两个信息来产生对状态的更新。在我们语言模型的例子中，我们希望增加新的主语的性别到细胞状态中，来替代旧的需要忘记的主语。

现在是更新旧细胞状态的时间了，Ct-1更新为Ct。我们把旧状态与 f t 相乘。丢弃掉我们确定需要丢弃的信息。接着加上 i t ∗ C ~ t f_t相乘。丢弃掉我们确定需要丢弃的信息。接着加上i_t*tilde{C}_t ft相乘。丢弃掉我们确定需要丢弃的信息。接着加上it∗C~t。这就是新的候选值，根据我们决定更新每个状态的程度进行变化。有了上面的理解基础输入门，输入门理解起来就简单多了。sigmoid函数选择更新内容，tanh函数创建更新候选。

最终，我们需要确定输出什么值。这个输出将会基于我们的细胞状态，但是也是一个过滤后的版本。首先，我们运行一个 sigmoid 层来确定细胞状态的哪个部分将输出出去。接着，我们把细胞状态通过 tanh 进行处理（得到一个在 -1 到 1 之间的值）并将它和 sigmoid 门的输出相乘，最终我们仅仅会输出我们确定输出的那部分。

这三个门虽然功能上不同，但在执行任务的操作上是相同的。他们都是使用sigmoid函数作为选择工具，tanh函数作为变换工具，这两个函数结合起来实现三个门的功能。这就是RNN算法以及LSTM的全部内容，如果还看不懂，可以看看这篇内容，讲的挺详细的。接下来给大家介绍RNN的实际操作。

RNN算法核心代码实战

基于Pytorch的RNN的核心代码

在实际代码操作之前，我们实验的环境依然是前面文章用到的环境。不过我们需要的是得安装好pytorch三方库，安装只需要：

python3 -m pip install --upgrade torch torchvision -i https://pypi.tuna.tsinghua.edu.cn/simple

详细地可以参考网上的文章，相关库的安装文档特别的多，这里有一篇挺有效的，推荐给大家。安装好之后即可进行试验。

import torch
import torch.nn
class RnnCore(nn.Module):
	def __init__(self,inputSize,hiddenSize，outputSize，layers=1):
		super(RnnCore,self).__init__()
		self.hidden_size = hiddenSize
		self.num_layers = layers
		self.embedding = nn.Embedding(inputSize,hiddenSize)
		self.rnn = nn.RNN(hiddenSize,hiddenSize,layers,batch_first=True)
		self.fc = nn.Linear(hiddenSize,outputSize)
		self.softmax = nn.LogSoftmax(dim=1)
	def forward(self,inputs,hidden):
		x = self.embedding(inputs)
		output,hidden = self.rnn(x,hidden)
		output = output[:,-1,:]
		output = self.fc(output)
		return output,hidden
	def initHidden(self):
		return Variable(torch.zeros(self.num_layers,1,self,hidden_size))

基于Pytorch实现的序列生成实战

1、任务描述 观察以下序列： 01 0011 000111 00001111 ………… 不难发下其规律： 1、它们都只包含0和1 2、它们的长度不相等 3、0和1的数量是相同的，出现是连续的 4、通用的表示为 ‘0’* n + ‘1’ *n，n表示0和1出现的数量这个序列在计算机中，我们称其为上下文无关文法，简单的说，就是可以被一组替代规则所生成，而与所处的上下文本身是无关的。 2、任务分析 1、如果出现的序列是0000，那么下一位是0还是1显然不能确定 2、如果出现的序列是00001，那么下一位是1 3、如果序列是00001111，此时0和1的数量相同，显然这个序列下一步应该结束下面我们使用RNN来完成这个序列生成的任务。主要可以分为训练学习和序列生成两个步骤，在训练阶段，RNN尝试用前面的字符来预测下一个，在生成阶段，RNN会根据给点的种子来生成一个完整的序列。

#encoding=utf-8
import torch
import torch.nn  as nn
import torch.optim
from torch.autograd import Variable
from collections import Counter
import matplotlib 
import matplotlib.pyplot as plt
from matplotlib import rc
import numpy as np
class SimpleRnn(nn.Module):
    def __init__(self,input_size,hidden_size,output_size,num_layers=1):
        super(SimpleRnn,self).__init__()
        self.hidden_size = hidden_size
        self.num_layers  = num_layers
        self.embedding = nn.Embedding(input_size,hidden_size)
        self.rnn = nn.RNN(hidden_size,hidden_size,num_layers,batch_first= True)
        self.fc = nn.Linear(hidden_size,output_size)
        self.softmax = nn.LogSoftmax(dim=1)
    def forward(self,inputs,hidden):
        x = self.embedding(inputs)
        output,hidden = self.rnn(x,hidden)
        output = output[:,-1,:]
        output = self.fc(output)
        output = self.softmax(output)  
        return output,hidden
    def initHidden(self):
        return Variable(torch.zeros(self.num_layers,1,self.hidden_size))
train_set = []
validset = []
sample = 2000
sz = 10
probablity = 1.0 *np.array([10,6,4,3,1,1,1,1,1,1])
probablity = probablity[:sz]
probablity = probablity / sum(probablity)
for m in range(2000):
    n = np.random.choice(range(1,sz+1),p=probablity)
    inputs = [0]*n + [1]*n
    inputs.insert(0,3)
    inputs.append(2)
    train_set.append(inputs)
for m in range(sample // 10):
    n =np.random.choice(range(1,sz+1),p=probablity)
    inputs = [0] * n + [1] *n
    inputs.insert(0,3)
    inputs.append(2)
    validset.append(inputs)
for m in range(2):
    n = sz + m
    inputs = [0] * n + [1] *n
    inputs.insert(0,3)
    inputs.append(2)
    validset.append(inputs)
rnn = SimpleRnn(input_size=4, hidden_size=2, output_size=3)
criterion = torch.nn.NLLLoss() 
optimizer = torch.optim.Adam(rnn.parameters(),lr=0.001)
num_epoch = 50
results = []
for epoch in range(num_epoch):
    train_loss = 0
    np.random.shuffle(train_set)
    for i,seq in enumerate(train_set):
        loss = 0
        hidden = rnn.initHidden() 
        for t in range(len(seq)-1):
            x = Variable(torch.LongTensor([seq[t]]).unsqueeze(0))
            y = Variable(torch.LongTensor([seq[t+1]]))
            output,hidden = rnn(x,hidden)
            loss += criterion(output,y)
        loss = 1.0 * loss / len(seq)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        train_loss += loss
        if i>0 and i % 500 ==0:
            print('第{}轮，第{}个，训练平均loss：{:.2f}'.format(epoch,i,train_loss.data.numpy()/i))
    valid_loss = 0
    errors = 0
    show_out_p =''
    show_out_t = ''
    for i,seq in enumerate(validset):
        loss = 0
        outstring = ''
        targets = ''
        diff = 0
        hidden = rnn.initHidden()
        for t in range(len(seq)-1):
            x = Variable(torch.LongTensor([seq[t]]).unsqueeze(0))
            y = Variable(torch.LongTensor([seq[t+1]]))
            output,hidden = rnn(x,hidden)
            data = output.data.numpy()
            print("the output is ",data)
            mm = torch.max(output,1)[1][0]
            outstring += str(mm.data.numpy())
            targets += str(y.data.numpy()[0])
            loss += criterion(output,y)
            diff += 1 - mm.eq(y).data.numpy()[0]
        loss = 1.0 * loss / len(seq)
        valid_loss += loss
        errors += diff
        if np.random.rand() < 0.1:
            show_out_p += outstring 
            show_out_t += targets
        print(output[0][2].data.numpy())
        print('第{}轮，训练loss: {:.2f},校验loss：{:.2f},错误率：{:.2f}'.format(epoch,train_loss.data.numpy()/len(train_set),                                                                               valid_loss.data.numpy()/len(validset)                                                                                   ,1.0*errors/len(validset)))
        print("the show output is: ",show_out_p)
        print("the show taget is: ",show_out_t)
        results.append([train_loss.data.numpy()/len(train_set),valid_loss/len(train_set),1.0*errors/len(validset)])

RNN算法的应用实例

在接下来给大家介绍三个RNN的应用实例，从开始的对字符的处理到文字的处理，以及最后的每日新闻预测金融市场变化应用实例，在这里，我们需要申明的是，以下的案例中用到了一些三方库，在实验之前你应该安装好，python中绝大多数库均可以通过pip来安装。在这里我们需要安装好numpy，pandas，matplotlib、sklearn、nltk、tensorflow、gensim。 不过，在此之前给大家数据集(验证码为：xebr)。大家可以下载数据集，然后放在相应的位置，具体位置如图所示：

具体的文档目录如下所示：

文档内容如下图所示：

1、用RNN做文本生成(Char)

我们这里用温斯顿丘吉尔的人物传记作为我们的学习语料。具体实现如下： 1、导入各种库

import numpy
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import Dropout
from keras.layers import LSTM
from keras.callbacks import ModelCheckpoint
from keras.utils import np_utils

2、接下来，我们把文本读入

raw_text = open(r'F:南昌大学自然语言处理学习自然语言处理资料课件资料6DLinNLPinputWinston_Churchil.txt', encoding='utf-8').read()
raw_text = raw_text.lower()

既然我们是以每个字母为层级，字母总共才26个，所以我们可以很方便的用One-Hot来编码出所有的字母（当然，可能还有些标点符号和其他noise）

chars = sorted(list(set(raw_text)))
char_to_int = dict((c,i) for i,c in enumerate(chars))
int_to_char = dict((i,c) for i,c in enumerate(chars))

我们看到，全部的chars：

一共有：

len(chars)

同时，我们的原文本一共有:

len(raw_text)

3、构造训练测试集我们需要把我们的raw text变成可以用来训练的x,y:x 是前置字母们 y 是后一个字母。

seq_length = 100
x = []
y = []
for i in range(0, len(raw_text) - seq_length):
    given = raw_text[i:i+seq_length]
    predict = raw_text[i + seq_length]
    x.append([char_to_int[char] for char in given])
    y.append(char_to_int[predict])
print(x[:3])
print(y[:3])

接下来我们做两件事： 1、我们已经有了一个input的数字表达（index），我们要把它变成LSTM需要的数组格式： [样本数，时间步伐，特征] 2、第二，对于output，我们在Word2Vec里学过，用one-hot做output的预测可以给我们更好的效果，相对于直接预测一个准确的y数值的话。

n_patterns = len(x)
n_vocab = len(chars)
x = numpy.reshape(x, (n_patterns, seq_length, 1))
x = x/float(n_vocab)
y = np_utils.to_categorical(y)
print(x[11])
print(y[11])

4、模型建造

model = Sequential()
model.add(LSTM(256, input_shape=(x.shape[1], x.shape[2])))
model.add(Dropout(0.2))
model.add(Dense(y.shape[1], activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam')
model.fit(x, y, nb_epoch=50, batch_size=4096)

最后，我们来写个程序，看看我们训练出来的LSTM的效果：

def predict_next(input_array):
    x = numpy.reshape(input_array, (1, seq_length, 1))
    x = x / float(n_vocab)
    y = model.predict(x)
    return y

def string_to_index(raw_input):
    res = []
    for c in raw_input[(len(raw_input)-seq_length):]:
        res.append(char_to_int[c])
    return res

def y_to_char(y):
    largest_index = y.argmax()
    c = int_to_char[largest_index]
    return c

def generate_article(init, rounds=200):
    in_string = init.lower()
    for i in range(rounds):
        n = y_to_char(predict_next(string_to_index(in_string)))
        in_string += n
    return in_string

init = 'His object in coming to New York was to engage officers for that service. He came at an opportune moment'
article = generate_article(init)
print(article)

2、用RNN做文本生成(Word)

文本内容如图所示

接下来用python将其实现： 1、先导入各种库

import os
import numpy as np
import nltk
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import Dropout
from keras.layers import LSTM
from keras.callbacks import ModelCheckpoint
from keras.utils import np_utils
from gensim.models.word2vec import Word2Vec

2、接下来，我们把文本读入

raw_text = ''
for file in os.listdir(r'C:\Users\Administrator\NLP\复习八天学习自然语言处理内容\第六天input\'):
    if file.endswith(".txt"):
        raw_text += open(r'C:\Users\Administrator\NLP\复习八天学习自然语言处理内容\第六天input\'+file, errors='ignore').read() + 'nn'
# raw_text = open('../input/Winston_Churchil.txt').read()
raw_text = raw_text.lower()
sentensor = nltk.data.load('tokenizers/punkt/english.pickle')        
sents = sentensor.tokenize(raw_text)
corpus = []
for sen in sents:
    corpus.append(nltk.word_tokenize(sen))

print(len(corpus))
print(corpus[:3])

w2v_model = Word2Vec(corpus, size=128, window=5, min_count=5, workers=4)
w2v_model['office']

接下来，其实我们还是以之前的方式来处理我们的training data，把源数据变成一个长长的x，好让LSTM学会predict下一个单词：

raw_input = [item for sublist in corpus for item in sublist]
len(raw_input)
raw_input[12]
text_stream = []
vocab = w2v_model.wv.vocab
for word in raw_input:
    if word in vocab:
        text_stream.append(word)
len(text_stream)

3、构造训练测试集我们需要把我们的raw text变成可以用来训练的x,y:x 是前置字母们 y 是后一个字母。

seq_length = 10
x = []
y = []
for i in range(0, len(text_stream) - seq_length):

    given = text_stream[i:i + seq_length]
    predict = text_stream[i + seq_length]
    x.append(np.array([w2v_model[word] for word in given]))
    y.append(w2v_model[predict])
print(x[10])
print(y[10])
print(len(x))
print(len(y))
print(len(x[12]))
print(len(x[12][0]))
print(len(y[12]))
print(x[10])
print(y[10])
print(len(x))
print(len(y))
print(len(x[12]))
print(len(x[12][0]))
print(len(y[12]))

x = np.reshape(x, (-1, seq_length, 128))
y = np.reshape(y, (-1,128))

接下来我们做两件事： 1、我们已经有了一个input的数字表达（w2v），我们要把它变成LSTM需要的数组格式： [样本数，时间步伐，特征] 2、第二，对于output，我们直接用128维的输出 4、模型建造

model = Sequential()
model.add(LSTM(256, dropout_W=0.2, dropout_U=0.2, input_shape=(seq_length, 128)))
model.add(Dropout(0.2))
model.add(Dense(128, activation='sigmoid'))
model.compile(loss='mse', optimizer='adam')
model.fit(x, y, nb_epoch=50, batch_size=4096)

我们来写个程序，看看我们训练出来的LSTM的效果：

def predict_next(input_array):
    x = np.reshape(input_array, (-1,seq_length,128))
    y = model.predict(x)
    return y

def string_to_index(raw_input):
    raw_input = raw_input.lower()
    input_stream = nltk.word_tokenize(raw_input)
    res = []
    for word in input_stream[(len(input_stream)-seq_length):]:
        res.append(w2v_model[word])
    return res

def y_to_word(y):
    word = w2v_model.most_similar(positive=y, topn=1)
    return word
def generate_article(init, rounds=30):
    in_string = init.lower()
    for i in range(rounds):
        n = y_to_word(predict_next(string_to_index(in_string)))
        in_string += ' ' + n[0][0]
    return in_string
init = 'Language Models allow us to measure how likely a sentence is, which is an important for Machine'
article = generate_article(init)
print(article)

3、每日新闻预测金融市场变化

每日新闻预测金融市场变化，在这里我们会学到如何有效地使用word2vec。其文本内容如下所示：

具体实现如下： 1、导入各种库以及文本

import pandas as pd
import numpy as np
from sklearn.metrics import roc_auc_score
from datetime import date
data = pd.read_csv(r'F:南昌大学自然语言处理学习自然语言处理资料课件资料6DLinNLPinputCombined_News_DJIA.csv')
data.head()

2、分割测试/训练集

train = data[data['Date'] < '2015-01-01']
test = data[data['Date'] > '2014-12-31']

然后，我们把每条新闻做成一个单独的句子，集合在一起：

X_train = train[train.columns[2:]]
corpus = X_train.values.flatten().astype(str)

X_train = X_train.values.astype(str)
X_train = np.array([' '.join(x) for x in X_train])
X_test = test[test.columns[2:]]
X_test = X_test.values.astype(str)
X_test = np.array([' '.join(x) for x in X_test])
y_train = train['Label'].values
y_test = test['Label'].values

这里我们注意，我们需要三样东西：corpus是全部我们『可见』的文本资料。我们假设每条新闻就是一句话，把他们全部flatten()了，我们就会得到list of sentences。同时我们的X_train和X_test可不能随便flatten，他们需要与y_train和y_test对应。

corpus[:3]
X_train[:1]
y_train[:5]
from nltk.tokenize import word_tokenize
corpus = [word_tokenize(x) for x in corpus]
X_train = [word_tokenize(x) for x in X_train]
X_test = [word_tokenize(x) for x in X_test]
X_train[:2]
corpus[:2]

3、预处理我们进行一些预处理来把我们的文本资料变得更加统一：

小写化
删除停止词
删除数字与符号
lemma

from nltk.corpus import stopwords
stop = stopwords.words('english')
import re
def hasNumbers(inputString):
    return bool(re.search(r'd', inputString))
def isSymbol(inputString):
    return bool(re.match(r'[^w]', inputString))
from nltk.stem import WordNetLemmatizer
wordnet_lemmatizer = WordNetLemmatizer()
def check(word):
    word= word.lower()
    if word in stop:
        return False
    elif hasNumbers(word) or isSymbol(word):
        return False
    else:
        return True
def preprocessing(sen):
    res = []
    for word in sen:
        if check(word):
            word = word.lower().replace("b'", '').replace('b"', '').replace('"', '').replace("'", '')
            res.append(wordnet_lemmatizer.lemmatize(word))
    return res

把我们三个数据组都来处理一下：

corpus = [preprocessing(x) for x in corpus]
X_train = [preprocessing(x) for x in X_train]
X_test = [preprocessing(x) for x in X_test]
print(corpus[553])
print(X_train[523])

4、训练NLP模型有了这些干净的数据集，我们可以做我们的NLP模型了。我们这里最简单的Word2Vec

from gensim.models.word2vec import Word2Vec
model = Word2Vec(corpus, size=128, window=5, min_count=5, workers=4)
model['ok']

5、用NLP模型表达我们的X 接着，我们于是就可以用这个坐标，来表示我们的之前干干净净的X。但是这儿有个问题。我们的vec是基于每个单词的，怎么办呢？由于我们文本本身的量很小，我们可以把所有的单词的vector拿过来取个平均值：

vocab = model.wv.vocab
def get_vector(word_list):
    res = np.zeros([128])
    count = 0
    for word in word_list:
        if word in vocab:
            res += model[word]
            count += 1
    return res/count
get_vector(['hello', 'from', 'the', 'other', 'side'])

这样，我们可以同步把我们的X都给转化成128维的一个vector list，为了之后内容的方便，我们先把之前我们处理好的wordlist给存下来。

wordlist_train = X_train
wordlist_test = X_test
X_train = [get_vector(x) for x in X_train]
X_test = [get_vector(x) for x in X_test]
print(X_train[10])

6、建立ML模型这里，因为我们128维的每一个值都是连续关系的。不是分裂开考虑的。所以，道理上讲，我们是不太适合用RandomForest这类把每个column当做单独的variable来看的方法。我们来看看比较适合连续函数的方法——SVM。

from sklearn.svm import SVR
from sklearn.model_selection import cross_val_score

params = [0.1,0.5,1,3,5,7,10,12,16,20,25,30,35,40]
test_scores = []
for param in params:
    clf = SVR(gamma=param)
    test_score = cross_val_score(clf, X_train, y_train, cv=3, scoring='roc_auc')
    test_scores.append(np.mean(test_score))
import matplotlib.pyplot as plt
%matplotlib inline
plt.plot(params, test_scores)
plt.title("Param vs CV AUC Score");

总结

本文详细介绍RNN算法，并且介绍了其扩展的算法——LSTM算法，通过pytorch来实现RNN核心代码。接着，我们又通过三个案例来让大家更加的熟悉RNN相关内容。从字符的处理到词的处理，最后通过一个完整案例，让大家感受RNN以及LSTM在实际案例中的应用。这些代码均可以直接运行，前提是你得搭建好相关的环境。 希望大家能够动手跑一遍本文的代码，真正的掌握、理解该部分内容。这一部分在自然语言处理中是非常重要的，希望大家掌握好这一算法。最后我们一起努力进步，在追梦的道路上不断前进。