深度学习优化器

Published: June 17, 2022 by Authur Lee

Categories:
DeepLearning 9

梯度下降算法（Gradient Decent, GD）
动量优化法（Momentum）
自适应学习率优化算法
参考

梯度下降算法（Gradient Decent, GD）

梯度下降是迭代法的一种。梯度下降法的计算过程就是沿梯度下降的方向求解极小值，当然也可以沿梯度上升方向求解最大值。

假设

模型参数为 $\theta$；
损失函数为 $J(\theta)$；
梯度 $\bigtriangledown_\theta J(\theta)$ 为损失函数 $J(\theta)$ 关于参数 $\theta$ 的偏导数；
学习率为 $\alpha$

则使用梯度下降算法更新参数为

\[\theta_{t+1} = \theta_t - \alpha\cdot\bigtriangledown_\theta J(\theta)\]

梯度下降算法的两个缺点：

训练速度慢。
每走一步都要计算调整下一步的方向，下山的速度变慢。在应用于大型数据集中，每输入一个样本都要更新一次参数，且每次迭代都要遍历所有的样本。会使得训练过程极其缓慢，需要花费很长时间才能得到收敛解。
容易陷入局部最优解。
由于是在有限视距内寻找下山的反向。当陷入平坦的洼地，会误以为到达了山地的最低点，从而不会继续往下走。所谓的局部最优解就是鞍点，到达鞍点后模型参数不再继续更新。

批量梯度下降算法（Batch Gradient Descent, BGD）

训练总样本数为$n$
样本为 ${(x^1,y^1),…,(x^n,y^n)}$
在第$i$对样本上${(x^i,y^i)}$上损失函数关于参数的梯度为$\bigtriangledown_\theta J_i(\theta,x^i,y^i)$

则使用BGD更新参数为

\[\theta_{t+1}=\theta_t-\alpha_t\cdot\sum_{i=1}^n\bigtriangledown_\theta J_i(\theta,x^i,y^i)\]

每进行一次参数更新，需要计算整个数据样本集，因此导致批量梯度下降法的速度会比较慢，尤其是数据集非常大的情况下，收敛速度就会非常慢，但是由于每次的下降方向为总体平均梯度，它得到的会是一个全局最优解。批量梯度下降法比标准梯度下降法训练时间短，且每次下降的方向都很正确。

随机梯度下降算法（Stochastic Gradient Descent, SGB）

和BGD不同，每次参数更新只需选择一个样本 $(x^i,y^i)$ 计算其梯度，参数更新公式如下：

\[\theta_{t+1}=\theta_t-\alpha\cdot\bigtriangledown_\theta J_i(\theta,x^i,y^i)\]

BGD和SGD是两个极端，SGD由于每次参数更新仅仅需要计算一个样本的梯度，训练速度很快，即使在样本量很大的情况下，可能只需要其中一部分样本就能迭代到最优解，由于每次迭代并不是都向着整体最优化方向，导致梯度下降的波动非常大，更容易从一个局部最优跳到另一个局部最优，准确度下降。

SGB缺点：

选择合适的learning rate比较困难，学习率太低会收敛缓慢，学习率过高会使收敛时的波动过大
所有参数都是用同样的learning rate
SGD容易收敛到局部最优，并且在某些情况下可能被困在鞍点

小批量梯度下降法（mini-Batch Gradient Descent, mini-BGD）

BGD 和 SGD 是两个极端，而 mini-BGD 作为 BGD 和 SGD 的折中。对于含有n个训练样本的数据集，每次参数更新时选择一个大小为 m（m < n）的 mini-batch 数据样本计算其梯度，其参数更新公式如下：

\[\theta_{t+1}=\theta_t-\alpha\cdot\sum_{i=x}^{i=x+m-1}\bigtriangledown_\theta J_i(\theta,x^i,y^i)\]

小批量梯度下降法即保证了训练的速度，又能保证最后收敛的准确率，目前的SGD默认是小批量梯度下降算法。

1）应用大型数据集时，训练速度很快。2）mini-BGD在选择小批量样本时，同时会引入噪声，使得权值更新的方向不一定正确。3）而对于引入噪声，大量的理论和实践工作证明，只要噪声不是特别大，都能很好地收敛。

动量优化法（Momentum）

【思想的物理抽象】当我们将一个小球从山上滚下来，没有阻力时，它的动量会越来越大，但是如果遇到了阻力，速度就会变小。

【算法的思想】参数更新时在一定程度上保留之前更新的方向，同时又利用当前batch的梯度微调最终的更新方向，简言之就是通过积累之前的动量 $g_{sum, previous}$ 来加速当前的梯度。梯度方向在不变的维度上，参数更新变快，梯度有所改变时，更新参数变慢，这样就能够加快收敛并且减少动荡。

gradient 表示时刻 t 时刻的动量（也就是t时刻的梯度）；
u 表示动量因子，通常取值为 0.9 或者近似值；

我们可以在 SGD 的基础上增加动量，参数更新公式如下

\[\begin{aligned} g_{sum} &= u\cdot g + g_{sum,previous}\cdot r_{decay}\\ \delta &= - r \cdot g_{sum}\\ \theta &= \theta + \delta \end{aligned}\]

$g$: gradient
$g_{sum}$: sum of gradient
$g_{sum,previous}$: previous sum of gradient
$r$: learning rate
$r_{decay}$: decay rate

在梯度方向改变时，momentum能够降低参数更新速度，从而减少震荡；在梯度方向相同时，momentum可以加速参数更新，从而加速收敛。总而言之，momentum能够加速SGD收敛，抑制震荡。 动量移动得更快(因为它积累的所有动量)；动量有机会逃脱局部极小值(因为动量可能推动它脱离局部极小值)。同样，它也将更好地通过高原区。

自适应学习率优化算法

基于小批量训练数据的自适应学习率算法主要有：

AdaGrad
RMSProp
Adam
lazydam

AdaGrad（Adaptive Gradient）

【思想】独立地适应所有模型参数的学习率，每个参数以反比于其所有梯度历史平均值总和的平方根规则缩放，详细情况可以看下文代码的具体流程。

括号内为建议默认值。

全局学习率 $\sigma$
初始化参数 $\omega$
为了数值稳定而创建的小常数 $\delta(=10x^{-7})$
梯度累计变量 $r(=0)$

AdaGrad 算法主体

1）取出小批量数据 $\{x_1,x_2,...,x_m\}$，数据对应的目标用$y_i$来表示； 2）在小批量数据的基础上按照公式计算梯度： $$ g\leftarrow\frac{1}{m}\bigtriangledown_w\sum_iL(f(x_i;\omega),y_i) $$ 3）累积平方梯度，并刷新 $r$： $$ r\leftarrow r+g\odot g $$ 4）计算参数更新量（ $\frac{\sigma}{\delta+\sqrt{r}}$ 会被逐元素应用）： $$ \Delta\omega = \frac{\sigma}{\delta+\sqrt{r}}\odot g $$ 5）根据 $\Delta\omega$ 更新参数： $$ \omega\leftarrow\omega+\Delta\omega $$

【Adagrad 解决问题的思路】更新的特征（幅度）越多，将来要更新的就越少，这样就有机会让其他特征（例如稀疏特征）赶上来。特征更新幅度的衡量标准使用梯度平方的累计和表示（可视化而言就是更新这个特征的程度在这个维度中移动了多少）。

这个思路让 AdaGrad 可以更好地避开鞍点。

Adagrad 将采取直线路径，而梯度下降（或者Momentum）方法“先滑下陡峭的斜坡之后才可能担心较慢的方向”。此时，梯度下降方法很有可能非常满足地停留在鞍点，因为那里两个方向的梯度都是零。

AdaGrad 小结

【适用范围】对出现比较多的类别数据，Adagrad 给予越来越小的学习率，而对于比较少的类别数据，会给予较大的学习率。因此 Adagrad 适用于数据稀疏或者分布不平衡的数据集。

【优势】不需要人为地调节学习率。

【缺点】随着迭代次数的增多，学习率会越来越小，最终趋于零。

RMSprop（root mean square prop）

基于 AdaGrad 算法的基础上修改得到。AdaGrad中，每个参数的 $\Delta\omega$ 都反比于其所有梯度历史平方值之和的平方根，但 RMSprop 算法采用了指数衰减平均的方式 淡化遥远过去的历史对当前步骤参数更新量 $\Delta\omega$ 的影响。

引入了新参数 $\rho$ 为 decay rate，用于控制历史梯度的衰减速率。

RMSprop 算法主体

1）取出小批量数据 $\{x_1,x_2,...,x_m\}$，数据对应的目标用$y_i$来表示； 2）在小批量数据的基础上按照公式计算梯度： $$ g\leftarrow\frac{1}{m}\bigtriangledown_w\sum_iL(f(x_i;\omega),y_i) $$ 3）累积平方梯度（此处梯度的平方和实际为**梯度平方的衰减和**），并刷新 $r$： $$ r\leftarrow\rho\cdot r+(1-\rho)\cdot g\odot g $$ 4）计算参数更新量（ $\frac{\sigma}{\delta+\sqrt{r}}$ 会被逐元素应用）： $$ \Delta\omega = \frac{\sigma}{\delta+\sqrt{r}}\odot g $$ 5）根据 $\Delta\omega$ 更新参数： $$ \omega\leftarrow\omega+\Delta\omega $$

除了衰减之外，decay rate $\rho$ 还有一个放缩效应。它以一个因子 $(1-\rho)$ 的效率向下缩小整个项。换句话说，如果$\rho=0.99$，除了衰减之外，梯度的平方和约为$\sqrt{1-\rho}=0.1$，因此对于相同的学习率而言，在新梯度 $g$ 方向上迈出的那一步（可以看成是在 $g$ 方向上的投影？）会将近原来的10倍。

Adam (Adaptive Moment Estimation)

同时兼顾了 momentum 和 RMSprop 的优点。

Adam 算法主体

全局学习率为 $\sigma(=0.001)$
矩估计的指数衰减速率 $\rho_1(=0.9),\rho_2(=0.99)\in[0,1)$
为了数值稳定而创建的小常数 $\delta(=10x^{-8})$
一阶、二阶矩变量$s,r(=0,0)$
时间计步器 $t(=0)$

1）取出小批量数据 $\{x_1,x_2,...,x_m\}$，数据对应的目标用$y_i$来表示； 2）在小批量数据的基础上按照公式计算梯度： $$ g\leftarrow\frac{1}{m}\bigtriangledown_w\sum_iL(f(x_i;\omega),y_i) $$ 3）刷新时间步： $$ t\leftarrow t+1 $$ 4）分别更新一阶、二阶有偏矩估计： $$ s\leftarrow\rho_1\cdot s+(1-\rho_1)\cdot g\\ r\leftarrow\rho_2\cdot r+(1-\rho_2)\cdot g\odot g $$ 5）分别对一阶矩阵和二阶矩阵的偏差进行修正： $$ \tilde{s}\leftarrow\frac{s}{1-\rho_1^t}\\ \tilde{r}\leftarrow\frac{r}{1-\rho_2^t} $$ 6）计算参数的更新量 $$ \Delta\omega = -\sigma\frac{\tilde{s}}{\sqrt{\tilde{r}+\delta}} $$ 7）根据 $\Delta\omega$ 更新参数： $$ \omega\leftarrow\omega+\Delta\omega $$

除了像 Adadelta 和 RMSprop 一样存储了过去梯度的平方 $r$ 的指数衰减平均值，也像 momentum 一样保持了过去梯度 $s$ 的指数衰减平均值，详情见上述代码 Step4。

【说明】名称为“指数衰减平均值”的一些说明。因为每一个都配一个权重$\rho$，在“历史”中存在了 $\Delta t$ 的梯度平方就相当于配上了 $\rho^{\Delta t}$，这和指数函数的的定义呼应上了。详情可以见EMA。

因为 $s$ 和 $r$ 被初始化为 0 向量，那它们就会向 0 偏置，所以做了偏差校正，通过计算偏差校正后的 $s$ 和 $r$ 来抵消这些偏差，详情见上述代码流程的 Step5。

【说明】分母小于零，有放大作用，相当于远离 0。随着 $t$ 的增加，$\beta^t$越来越接近0，该偏差修正对数据前期影响大，后期影响逐渐减小。

Adam 小结

Adam梯度经过偏置校正后，每一次迭代学习率都有一个固定范围，使得参数比较平稳。
结合了Adagrad善于处理稀疏梯度和RMSprop善于处理非平稳目标的优点
为不同的参数计算不同的自适应学习率
适用于大多非凸优化问题——适用于大数据集和高维空间。

LazyAdam

LazyAdam 是 Adam 优化器的一种变体，可以更高效地处理稀疏更新。原始的 Adam 算法为每个可训练变量维护两个移动平均累加器，这些累加器在每一步都会更新。而此类为稀疏变量提供了更加懒惰的梯度更新处理。它仅更新当前批次中出现的稀疏变量索引的移动平均累加器，而不是更新所有索引的累加器。与原始的 Adam 优化器相比，它可以大幅提高某些应用的模型训练吞吐量。但是，它的语义与原始的 Adam 算法略有不同，这可能会产生不同的实验结果。