AdaX:一个比Adam更优秀,带”长期记忆“的优化器

AdaX:一个比Adam更优秀,带”长期记忆“的优化器关注小夕并星标 解锁自然语言处理搜索 推荐与算法岗求职秘籍文 苏剑林 追一科技 人称苏神 美 人美心细小谨思密达前言这篇文章简单介绍一个叫做 AdaX 的优化器 来自 AdaX A 比 adam 的梯度优化更好的

大家好,欢迎来到IT知识分享网。

AdaX:一个比Adam更优秀,带”长期记忆“的优化器

关注小夕并星标,解锁自然语言处理
搜索推荐算法岗求职秘籍

文 | 苏剑林(追一科技,人称苏神)

美 | 人美心细小谨思密达


前言

这篇文章简单介绍一个叫做AdaX的优化器,来自《AdaX: Adaptive Gradient Descent with Exponential Long Term Memory》。介绍这个优化器的原因是它再次印证了之前在《硬核推导Google AdaFactor:一个省显存的宝藏优化器》一文中提到的一个结论,两篇文章可以对比着阅读。

Adam & AdaX

AdaX的更新格式是










































































































































































































其中
的默认值是0.0001。对了,顺便附上自己的Keras实现:https://github.com/bojone/adax 作为比较,Adam的更新格式是











































































































































































































































其中
的默认值是0.999。

等价形式变换

可以看到,两者的第一个差别是AdaX去掉了动量的偏置校正
(这一步),但这其实影响不大,AdaX最大的改动是在
处,本来
是滑动平均格式,而
不像是滑动平均了,而且
,似乎有指数爆炸的风险?

原论文称之为“with Exponential Long Term Memory”,就是指
β 导致历史累积梯度的比重不会越来越小,反而会越来越大,这就是它的长期记忆性。

事实上,学习率校正用的是
,所以有没有爆炸我们要观察的是
。对于Adam,我们有







所以如果设
,那么更新公式就是







基于同样的道理,如果设
,那么AdaX的
的更新公式也可以写成上式。

衰减策略比较

所以,从真正用来校正梯度的
来看,不管是Adam还是AdaX,其更新公式都是滑动平均的格式,只不过对应的衰减系数
不一样。

对于Adam来说,当时t = 0,
,这时候
就是
,也就是用实时梯度来校正学习率,这时候校正力度最大;当
时,
,这时候
是累积梯度平方与当前梯度平方的加权平均,由于
,所以意味着当前梯度的权重
不为0,这可能导致训练不稳定,因为训练后期梯度变小,训练本身趋于稳定,校正学习率的意义就不大了,因此学习率的校正力度应该变小,并且
,学习率最好恒定为常数(这时候相当于退化为SGD),这就要求
时,

对于AdaX来说,当t = 0时
,当

,满足上述的理想性质,因此,从这个角度来看,AdaX确实是Adam的一个改进。在AdaFactor中使用的则是
,它也是从这个角度设计的。至于AdaX和AdaFactor的策略孰优孰劣,笔者认为就很难从理论上解释清楚了,估计只能靠实验。

就这样结束了

嗯,文章就到这儿结束了。开头就说了,本文只是简单介绍一下AdaX,因为它再次印证了之前的一个结论——
应当满足条件“
”,这也许会成为日后优化器改进的基本条件之一。


AdaX:一个比Adam更优秀,带”长期记忆“的优化器

萌屋公告

喜欢本文的小伙伴们,记得扫描下方二维码关注并星标置顶,我才能来到你面前哦。

卖萌屋妹子们的原创技术干货有 ACL2020学术前沿系列、NLP综述系列、NLP论文清单系列、NLP基础入门系列、搜索与推荐系列、深度学习初/中/高级炼丹技巧、机器学习入门系列、算法岗offer收割系列等。订阅号后台回复【干货】即可打包带走。

卖萌屋里有众多顶会审稿人、大厂研究员、知乎大V和美丽小姐姐(划掉????‍♀️),我们成立了 自然语言处理 / 知识图谱 / 深度学习 / 机器学习 / 校招求职 高质量讨论群,订阅号后台回复入群即可上车。

AdaX:一个比Adam更优秀,带”长期记忆“的优化器

夕小瑶的卖萌屋

_

关注&星标小夕,带你解锁AI秘籍

订阅号主页下方「撩一下」有惊喜哦

AdaX:一个比Adam更优秀,带”长期记忆“的优化器

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/143653.html

(0)
上一篇 2025-05-02 11:33
下一篇 2025-05-02 11:45

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信