常见的优化器（Optimizer）原理_耀世-耀世娱乐咨询法律事务所

耀世-耀世娱乐咨询法律事务所

陈律师

陈律师在办理婚姻、劳动工伤、人身损害侵权等民事纠纷、公司、合同、房地产等经济纠纷、非诉讼业务及刑事辩护等案件过程中，......

律师咨询热线： 400-123-4567

站内公告： 诚信为本：市场永远在变，诚信永远不变。

耀世注册

联系我们

400-123-4567

+86-123-4567
13800000000

广东省广州市天河区88号

案例分类二当前位置：首页 > 耀世登录 > 案例分类二

常见的优化器（Optimizer）原理

时间：2024-03-12 13:29:59

　

?

目录

二、梯度下降法

2.1 梯度下降（GD）

2.2?随机梯度下降（SGD）

2.3 小批量梯度下降法（MBGD）

三、动量优化法

3.1?SGD+Momentum

四、自适应学习率

五、性能比较

记录下常见的优化算法。

重点是这篇paper：https://arxiv.org/pdf/1609.04747.pdf

优化算法是训练过程中寻求最优解的方法，分类如下：

梯度下降是通过 Loss 对 $\mathbf{\omega}$ 的一阶导数来找下降方向，并且以迭代的方式来更新参数，更新方式为 :

$\mathbf{W}_{t+1}=\mathbf{W}_{t}-\eta \Delta J(\mathbf{W}_{t})$

其中， $\eta$ 为学习率。

随机梯度下降法（Stochastic Gradient Descent，SGD）：均匀地、随机选取其中一个样本 $(X^{(i)},Y^{(i)})$ ，用它代表整体样本，即把它的值乘以N，就相当于获得了梯度的无偏估计值。

SGD的更新公式为：

$\mathbf{W}_{t+1}=\mathbf{W}_{t}-\eta N \Delta J(\mathbf{W}_{t},X^{(i)},Y^{(i)})$

每次迭代使用m个样本来对参数进行更新，MBGD的更新公式为：

$\mathbf{W}_{t+1}=\mathbf{W}_{t}-\eta \frac{1}{m} \sum_{k=i}^{i+m-1} \Delta J(\mathbf{W}_{t},X^{(k)},Y^{(k)})$

优点：

简单；

缺点：

训练速度慢；
会进入Local Minima或者Saddle Point导致gradient为0；

使当前训练数据的梯度受到之前训练数据的梯度的影响，即增加一个动量。

牛顿加速梯度动量优化方法(NAG, Nesterov accelerated gradient)：拿着上一步的速度先走一小步，再看当前的梯度然后再走一步。

SGDM对比NAG如下：

AdaGrad算法通过记录历史梯度，能够随着训练过程自动减小学习率。

RMSProp简单修改了Adagrad方法，它做了一个梯度平方的滑动平均。

Adam看起来像是RMSProp的Momentum版。

即：

用一份数据配合pytorch简单测试比较下几个优化器：

代码和数据见：https://github.com/hello2mao/Learn-MachineLearning/tree/master/DeepLearning/OptimizerTest

自己测试的数据果然看不出优劣，可以看下其他人的测试结果（详见：https://shaoanlu.wordpress.com/2017/05/29/sgd-all-which-one-is-the-best-optimizer-dogs-vs-cats-toy-experiment/）：

可以看到，在训练数据上，Adam表现比较好，在验证数据上，SGDM表现比较好，所以一般选择Adam或者SGDM? ^_^.

上一篇：繁花沪语版第19集免费播放

下一篇：《狂飙》

返回上一级返回首页

友情链接：耀世天富天富天辰

地址：广东省广州市天河区88号电话：400-123-4567 传真：+86-123-4567
Copyright © 2012-2018 耀世-耀世娱乐咨询法律事务所版权所有非商用版本 ICP备案编号：琼ICP备985981119号

平台注册入口