深度学习系列（2）：前向传播和后向传播算法

前言

讲真，之前学吴恩达的机器学习课时，还手写实现过后向传播算法，但如今忘得也一干二净。总结两个原因：1. 理解不够透彻。2. 没有从问题的本质抓住后向传播的精髓。今天重温后向传播算法的推导，但重要的是比较前向传播和后向传播的优缺点，以及它们在神经网络中起到了什么不一般的作用，才让我们如此着迷。

反向传播的由来

反向传播由Hinton在1986年发明，该论文发表在nature上，高尚大的杂志啊。

Rumelhart, David E, G. E. Hinton, and R. J. Williams. “Learning representations by back-propagating errors. ” Nature 323.6088(1986):533-536.

简单说说吧，反向传播主要解决神经网络在训练模型时的参数更新问题。神经网络如下图：

反向传播算法需要解决每条边对应的权值如何更新，才能使得整个输出的【损失函数】最小。如果对神经网络还不了解，建议先学习了什么是神经网络，再阅读以下内容。

这里推荐几篇关于神经网络的文章，总体来说不错：

反向传播的计算

我很讨厌一上来就来了一堆反向传播的公式以及各种推导。这样没错，简单直接，理解了觉得自己还很牛逼，结果过了一段时间怎么又忘了公式的推导，还得重新推一遍。而理解反向传播的精髓并非这些公式的推导，而是它弥补了前向算法的哪些不足，为啥它就被遗留下来作为神经网络的鼻祖呢？解决了什么问题，如何优雅的解决了该问题？从哪些角度能让我们构建出反向传播算法才是应该去学习和理解的。

我们先来建个简单的神经网络图吧，注意，这里只是帮助理解反向传播算法的构建过程，与真实的神经网络有一定的差距，但其中的分析过程是大同小异的。

此外这三篇文章写的不错，【推导】【本质】【实现】都有了：