【TensorFlow实战——笔记】第3章：TensorFlow第一步_TensorFlow实现Softmax Regression识别手写数字

3.2 TensorFlow实现Softmax Regression识别手写数字

MNIST(Mixed National Institute of Standards and Technology database)是一个非常简单的机器视觉数据集，它由几万张28像素x28像素的只包含灰度值的手写数字组成。在机器学习领域，对MNIST手写数字的识别就像是编程语言里实现Hello World例子一样，是入门知识。

首先加载MNIST数据，然后查看mnist这个数据集，可以看到训练集有55000个样本，测试集有10000个样本，同时验证集有5000个样本。每一个MNIST数据单元有两部分组成：一张包含手写数字的图片和一个对应的标签label。下面的程序中，mnist.train.images就是训练数据集的图片，mnist.train.labels就是训练数据集的标签。

from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)
print(mnist.train.images.shape, mnist.train.labels.shape)
print(mnist.test.images.shape, mnist.test.labels.shape)
print(mnist.validation.images.shape, mnist.validation.labels.shape)

每一张图片是28像素x28像素大小的灰度图片，图像中白色的像素可以用0表示，有颜色的地方根据颜色深浅有0到1之间取值。我们把整个28x28=784个点展开成1维向量。下面是一张手写的1来举例。

我们的训练数据的特征是一个55000x784的Tensor，第一个维度是图片的编号，第二个维度是图片中像素点的编号。

同时，训练的数据label是一个55000x10的Tensor，这里是对10个种类进行了one-hot编码，label是一个10维的向量，只有一个值为1，其余为0。比如数字0，对应的label就是[1,0,0,0,0,0,0,0,0,0]。

Softmax回归模型介绍

当我们处理多分类任务时，通常需要使用Softmax Regression模型。即使是卷积神经网络或循环神经网络，如果是分类模型，最后一层也同样是Softmax Regression。它的工作原理很简单，将可以判定为某类的特征相加，然后将这些特征转化成为判定是这一类的概率。比如某个像素具有很强的证据说明这张图片不属于该类，那么相应的权值为负数，相反如果这个像素拥有有利的证据支持这张图片属于这个类，那么权值是正数。下图蓝色代表正的权重，红色代表负的权重。

可以用这些特征写成如下公式：

计算第i类的特征：i代表第i类，j代表一张图片的第j个像素。bi是额外的偏置量(bias)
对所有特征计算softmax：就是都计算一个exp函数，然后再进行标准化(让所有类别输出的概率值和为1)
判定为第i类的概率

如果将整个计算过程可视化，用下图表示：

如果将上图的连线变成公式：

最后将元素相乘变成矩阵乘法：

上述矩阵运算表达写成公式的话，可以用下面这样简洁的一行表达。

用TensorFlow实现Softmax回归模型

import tensorflow as tf
# 不同的session之间的数据和运算相互独立
sess = tf.InteractiveSession()
# [None, 784]代表tensor的shape，None代表不限条数输入，784代表每条输入是一个784维的向量
x = tf.placeholder(tf.float32, [None, 784])
# 创建weights和biases
W = tf.Variable(tf.zeros([784, 10]))
b = tf.Variable(tf.zeros([10]))
# 实现 y = softmax(Wx+b)
y = tf.nn.softmax(tf.matmul(x, W) + b)
# 定义损失函数cross-entropy
y_ = tf.placeholder(tf.float32, [None, 10])
cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y), reduction_indices=[1]))
# 随机梯度下降SGD，并设置学习速率0.5，优化目标设定为cross-entropy，得到进行训练的操作train_step
train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)
# 使用全局参数初始化器，并执行run
tf.global_variables_initializer().run()
# 开始迭代执行训练操作train_step
for i in range(1000):
    batch_xs, batch_ys = mnist.train.next_batch(100)
    train_step.run({x: batch_xs, y_: batch_ys})

# 对模型准确率进行验证
correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))
# 统计全部样本预测的accuracy
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
# 打印计算模型在测试集上的准确率
print(accuracy.eval({x: mnist.test.images, y_: mnist.test.labels}))

以上流程做的事情分为4部分：

定义算法公式，也就是神经网络forward时的计算
定义loss，选定优化器，并指定优化器优化loss
迭代地对数据进行训练
在测试集或验证集上对准确率进行评测