逻辑回归与梯度下降详解

时间:2022-05-07
本文章向大家介绍逻辑回归与梯度下降详解,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

逻辑回归

Sigmoid函数:

Sigmoid函数

梯度:

梯度的表达式

这个梯度是指:沿着x方向移动

个单位,沿着y方向移动

个单位。函数f(x,y)在这一点上有定义并且可微,每个单位长度自行设定,称为步长,记为

梯度上升算法到达每个点后都会重新计算移动的方向,不断迭代移动,直到满足停止条件,停止条件可以是一个确定的迭代次数或是达到较小的误差。在迭代过程中,梯度总是选取最佳的移动方向。

权值调整公式

利用该算法(梯度下降)进行求解优化问题:

权值Weights更新:weights=weights+alphadata.transpose()error 按误差方向调整权重(回归系数)。即可以写成:

权值根据误差分方向进行调整

增量是关于误差的一个函数。

随机梯度上升算法:

梯度上升算法每次更新都需要遍历整个数据集,如果数据量巨大,则耗时很大,复杂度高。改进方法:一次仅用户一个样本点来更新回归系数(随机梯度上升)。由于其在新样本到来时对分类器进行增量式更新,因而这是一个在线学习算法。

用代码来看两者的区别:

梯度上升:

for i in range(max_step):

      h = sigmoid(data_mat * weights)

      err = (label_mat - h)

      weights = weights + alpha * data_mat.transpose() * err

return weights

用全局的误差来更新weights

随机梯度上升:

for i in range(n):

        h = sigmoid(numpy.sum(data[i] * weights))

        err = label[i] - h

        weights = weights + data[i] * alpha * err

return weights

一个点只计算一次,遍历时使用当前点计算出的误差来调整本次的权值。

两者区别在计算误差的方式上。

其实怎么选取不重要,根据实验可以得到:随机选取和遍历每一个求得当前的误差,最后在于循环计算的次数,当次数趋向于一个合适的值时,误差稳定且较小,则此时分类即完成。

http://blog.csdn.net/qq_20945297/article/details/78552273

如果这不是一个凸优化问题,梯度下降势必会遇到局部最小(极小值)的情况

如何应对其局部最小的问题:

1、 以多组不同参数值初始化多个神经网络,按标准方法训练后,取其中误差最小的解作为最终参数;这就是从多个不同的初始点开始搜索寻优,这样陷入不同的局部极小值,从而选取更可能接近全局最小的解;

2、 使用模拟退火:以一定的概率接受比当前解更差的结果,每步迭代中,接受次优解的概率要随着时间推移降低,保证算法能够收敛;

3、 使用随机梯度下降,这样计算出的梯度仍可能不为0,这样就可能跳出局部极小值。