基于Pytorch的不同优化算法（Adagrad、RMSProp、AdaDelta、Adam四种）在 MNIST 数据集上的性能比较与可视化

本文主要介绍了Adagrad、RMSProp、AdaDelta、Adam四种经典的深度学习的优化算法。在以往文章中展示了深度学习的简单框架，在其基础上通过修改优化器便能得到不同优化方法的结果。下面将只展示修改的优化器部分。

明天，你好787

928人浏览 · 2024-07-31 19:10:17

明天，你好787 · 2024-07-31 19:10:17 发布

本文主要介绍了Adagrad、RMSProp、AdaDelta、Adam四种经典的深度学习的优化算法。在基于 PyTorch 的 MNIST数字图像数据集分类模型训练与评估的简单练习-CSDN博客一文中展示了深度学习的简单框架，在其基础上通过修改优化器便能得到不同优化方法的结果。下面将只展示修改的优化器部分。

一、Adagrad方法

该方法通过初始化一个变量s为0，然后每次将该参数的梯度平方求和累加到这个变量s上，然后更新参数设置学习率为

$\frac{\eta}{\sqrt{s+\epsilon}}$

此处的 $\epsilon$ 是为了防止 $s$ 为零时，导致学习率为无穷大而设置的一个很小的正数，通常设置为 $10^{-10}$ 。该方法核心是在梯度一直特别大时，学习率就会特别小，从而防止震荡。当梯度一直特别小时，学习率就会变大，从而快速更新参数。

但是该方法存在一些问题，比如， $s$ 是损失值平方的累加，会越来越大，导致后期学习率会很小，导致还没收敛，学习率就特别低，使得进程十分缓慢。

优化器设置如下：

optimizer = torch.optim.Adagrad(net.parameters(), lr=0.01)

如果我们想自己实现优化函数，代码如下所示：

def sgd_adagrad(parameters, sqrs, learn_rate):
    eps = 1e-10
    for param, sqr in zip(parameters, sqrs):
        sqr[:] = sqr + param.grad.data ** 2
        change = learn_rate / torch.sqrt(sqr + eps) * param.grad.data
        param.data = param.data - change

其中sqrs需要初始化为与参数大小相同的张量。

二、RMSProp方法

该方法仍然使用到了损失值平方累加，但在处理上与Adagrad方法不同。该方法在损失值平方累加上还添加了一个指数加权移动平均来计算 $s$ ，如下所示：

$s_i=\alpha s_{i-1}+(1-\alpha) g^2$

其中 $\alpha$ 就是添加的权重，而 $g$ 是当前参数的梯度值。最终学习率就与上面的Adagrad方法一样了。

$\frac{\eta}{\sqrt{s+\epsilon}}$

拥有 $\alpha$ 这个参数后，在每次更新参数时，对于梯度较大的方向，其学习率会相对较小，从而避免了学习过程中的大幅震荡；对于梯度较小的方向，学习率相对较大，能够更快地收敛到最优值。同时这个系数也使得到了训练后期 $s$ 不会打太，使得其依然能找到比较优秀的结果。

优化器设置如下：

optimizer = torch.optim.RMSprop(net.parameters(), 0.001, 0.9)

若自己实现优化器，代码如下：

def rmsprop(parameters, sqrs, lr, alpha):
    eps = 1e-10
    for param, sqr in zip(parameters, sqrs):
        sqr[:] = alpha * sqr + (1 - alpha) * param.grad.data ** 2
        div = lr / torch.sqrt(sqr + eps) * param.grad.data
        param.data = param.data - div

其中sqrs需要初始化为与参数大小相同的张量，alpha通常设置为0.9。

三、AdaDelta方法

该方法算是Adagrad方法的延伸，与RMSProp方法一样，都是为了解决在Adagrad方法中学习率不断减小的问题。

该方法同RMSProp一样，先使用移动平均来计算

$s_i=\alpha s_{i-1}+(1-\alpha) g^2$

此处的 $\alpha$ 与 $g$ 同RMSProp方法的一样，分别是移动平均系数与当前参数梯度。然后计算参数更新的变化量，如下：

$g'=\frac{\sqrt{\Delta\theta+\epsilon}}{\sqrt{s+\epsilon}}g$

$\Delta\theta$ 初始值设置为0的张量，更新 $\Delta\theta$ 与上述更新 $s$ 的方式相同。

$\Delta\theta=\alpha\Delta\theta+(1-\alpha)g'^2$

最终参数更新如下。

$\theta=\theta-g'$

优化器设置如下：

optimizer = torch.optim.Adadelta(net.parameters(), rho=0.9)

若自己实现优化器，代码如下：

ef adadelta(parameters, sqrs, deltas, alpha):
    eps = 1e-6
    for param, sqr, delta in zip(parameters, sqrs, deltas):
        sqr[:] = alpha * sqr + (1 - alpha) * param.grad.data ** 2
        cur_delta = torch.sqrt(delta + eps) / torch.sqrt(sqr + eps) * param.grad.data
        delta[:] = alpha * delta + (1 - alpha) * cur_delta ** 2
        param.data = param.data - cur_delta

其中sqrs、deltas均为初始为0的张量，alpha是平均移动系数。

四、Adam方法

该方法结合了动量法与RMSProp法，首先他将 $v$ 与 $s$ 都设置为0的张量，然后通过迭代计算他们的更新值。

$v=\beta_{1}v+(1-\beta_{1})g\\s=\beta_{2}s+(1-\beta_{2})g^{2}$

在该方法中为了减少s与v初始化为0张量对加权平均移动的影响，每次都会对 $v$ 与 $s$ 做以下操作。

$\hat{v}=\frac{v}{1-\beta_{1}^{t}}\\\hat{s}=\frac{s}{1-\beta_{2}^{t}}$

这里t是训练的次数，当 $\beta_{1}$ 、 $\beta_{2}$ 位于0到1之间时，当训练的次数足够多时， $\beta_1^{t}$ 、 $\beta_2^{t}$ 就越趋近于0，则不会影响 $v$ 和 $s$ 了。算法作者建议将 $\beta_1$ 与 $\beta_2$ 分别设置成0.9和0.999。然后将计算的到的 $\hat{v}$ 与 $\hat{s}$ 用于计算更新参数的变化之。

$g^{\prime}=\frac{\eta\hat{v}}{\sqrt{\hat{s}+\epsilon}}$

最后进行参数更新。

$\theta_i=\theta_{i-1}-g'$

该优化算法结合动量法与RMSProp各自的优点，同时具有较好的参数更新稳定性。

优化器设置如下：

optimizer = torch.optim.Adam(net.parameters(), lr=0.001)

若自己实现优化器，代码如下：

def adam(parameters, vs, sqrs, lr, t, beta1=0.9, beta2=0.999):
    eps = 1e-8
    for param, v, sqr in zip(parameters, vs, sqrs):
        v[:] = beta1 * v + (1 - beta1) * param.grad.data
        sqr[:] = beta2 * sqr + (1 - beta2) * param.grad.data ** 2
        v_hat = v / (1 - beta1 ** t)
        s_hat = sqr / (1 - beta2 ** t)
        param.data = param.data - lr * v_hat / torch.sqrt(s_hat + eps)

其中vs和sqrs为初始化为0的张量，t为训练的次数。

五、对比

使用上述四种方法训练相同的数据，通过matplotlab可视化以及控制台输出得到如下结果。

***********adagrad************
epoch:1,Train Loss:0.41554
epoch:2,Train Loss:0.26491
epoch:3,Train Loss:0.22543
epoch:4,Train Loss:0.20005
epoch:5,Train Loss:0.18108
所用时间为：19.04406
***********RMSProp************
epoch:1,Train Loss:0.37212
epoch:2,Train Loss:0.16852
epoch:3,Train Loss:0.12333
epoch:4,Train Loss:0.10148
epoch:5,Train Loss:0.08937
所用时间为：21.77974s
***********adadelt************
epoch:1,Train Loss:0.36424
epoch:2,Train Loss:0.15955
epoch:3,Train Loss:0.12493
epoch:4,Train Loss:0.10394
epoch:5,Train Loss:0.08919
所用时间为：20.12976
*************Adam*************
epoch:1,Train Loss:0.35856
epoch:2,Train Loss:0.17507
epoch:3,Train Loss:0.12567
epoch:4,Train Loss:0.10140
epoch:5,Train Loss:0.08493
所用时间为：23.16603

永洪数据分析社区

永洪科技，致力于打造全球领先的数据技术厂商，具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐

java计算机毕业设计教师工作量统计系统基于SpringBoot的高校教师绩效测算与可视化平台教师教学任务与工作量智能汇总系统

永洪数据分析社区

BI是报表？BI是可视化？BI到底是什么？

永洪数据分析社区

AI智能体+BI可视化：1小时极速入门，市场部独力完成分析报告

商务蓝：适合正式报告活力橙：适合创意活动环保绿：适合可持续发展主题自主分析能力：不再依赖IT部门，活动当天即可产出分析结论智能数据处理：AI智能体自动完成80%的数据清洗和分析工作专业可视化：通过PowerBI制作媲美专业数据分析师的报告持续优化：建立可复用的分析模板，后续活动效率更高决策支持：基于数据快速调整营销策略，提升活动ROI现在就可以尝试部署你的第一个智能分析环境，体验从数据到决策的高速