Mish、β-Mish激活函数

Mish、β-Mish激活函数本文介绍了 Mish 激活函数 一种自适应 非单调且连续的神经网络组件 以及其改进版 Mish 通过调整 和 参数增强表达能力

大家好,欢迎来到IT知识分享网。

Mish

论文:Mish: A Self Regularized Non-Monotonic Activation Function

年份:2020

通过对激活函数的理论研究,那些类似于Swish的共享特性,包括非单调性、保持小负权值的能力和平滑轮廓。提出多个函数分别为 a r c t a n ( x ) ⋅ s o f t p l u s ( x ) arctan(x)\cdot softplus(x) arctan(x)softplus(x) t a n h ( x ) ⋅ s o f t p l u s ( x ) tanh(x)\cdot softplus(x) tanh(x)softplus(x) x ⋅ l o g ( 1 + a r c t a n ( e x ) ) x\cdot log(1+arctan(e^x)) xlog(1+arctan(ex)) x ⋅ l o g ( 1 + t a n h ( e x ) ) x\cdot log(1+tanh(e^x)) xlog(1+tanh(ex))通过消融试验,我们确定Mish优化与其它函数,Mish的数学公式为:
f ( x ) = x ⋅ t a n h ( s o f t p l u s ( x ) ) = x ⋅ t a n h ( l o g ( 1 + e x ) ) f(x) = x\cdot tanh(softplus(x)) = x\cdot tanh(log(1+e^x)) f(x)=xtanh(softplus(x))=xtanh(log(1+ex))

Mish的曲线与导数曲线如下图所示。

在这里插入图片描述

  1. 从图中可以发现Mish是一个光滑、连续、自正则化、非单调的激活函数。
  2. Mish是有下界、无下界的激活函数,其范围为 [ ≈ − 0.31 , ∞ ] [\approx-0.31, \infty] [0.31,]
  3. Mish使用了自门控特性,由于保留了少量的负面信息,Mish通过设计消除了死亡ReLU,这有助于更好的表达和信息流。
  4. 由于上面没有边界,Mish避免了饱和,不会导致梯度消失;有下界会导致强正则化的特性。
  5. Mish又是连续可微的,这避免了奇异点,在执行基于梯度的优化时避免了不必要的副作用。
  6. 拥有平滑的轮廓对梯度的流动起到了很好的作用,有助于更容易的优化和更好的泛化。

β \beta β-Mish激活函数

论文:Beta and Alpha Regularizers of Mish Activation Functions for Machine Learning Applications in Deep Neural Networks

年份:2022

β \beta β-Mish是Mish的广义扩展,使用 β \beta β α \alpha α两个因子来归一化Mish激活函数边界以下的区域。 β \beta β-Mish使用了一个通用的数学表达式
f ( x ) = x ⋅ t a n h ( l n ( 1 + e α x β + x 2 ) ) f(x) = x\cdot tanh(ln(1+e^{\frac{\alpha x}{\sqrt{\beta+x^2}}})) f(x)=xtanh(ln(1+eβ+x2
αx
))

β \beta β-Mish的导数为:
f ′ ( x ) = α β x β + x 2 e α x β + x 2 c o s h 2 ( s o f t p l u s x ( ) ) + ( x 2 + β ) 2 ( 1 + e α x β + x 2 ) t a n h ( s o f t p l u s ( x ) ) ( x 2 + β ) 2 ( 1 + e α x β + x 2 ) f^\prime(x) = \frac{\frac{\alpha \beta x \sqrt{\beta+x^2 e^{\frac{\alpha x}{\sqrt{\beta +x^2}}}}}{cosh^2(softplusx())}+(x^2+\beta)^2(1+e^{\frac{\alpha x}{\sqrt{\beta +x^2}}}) tanh(softplus(x))}{(x^2 + \beta)^2(1+e^{\frac{\alpha x}{\sqrt{\beta +x^2}}})} f(x)=(x2+β)2(1+eβ+x2
αx
)
cosh2(softplusx())αβxβ+x2eβ+x2
αx

+(x2+β)2(1+eβ+x2
αx
)tanh(softplus(x))

α \alpha α的值由 β \beta β决定, α β = 1 5 \frac{\alpha}{\beta}= \frac{1}{5} βα=51 β \beta β的值在 1 ∼ 200 1\sim 200 1200, β \beta β-Mish避免了饱和,饱和通常会因为接近0的梯度而快速降低训练速度。

具体的 β \beta β-Mish的函数曲线如下图所示
在这里插入图片描述
导数曲线如下图
在这里插入图片描述
α \alpha α最好大于0, α \alpha α越小,该函数的最小值越大,对负值的正则化越弱。



免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/131068.html

(0)
上一篇 2025-08-10 18:45
下一篇 2025-04-07 22:45

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信