L1&L2,范数&损失

L1&L2,范数&损失这里是有很大的区别的哦

大家好,欢迎来到IT知识分享网。

1. L2范数(欧氏距离)

L2 范数 = 欧几里得范数(Euclidean norm) = 欧式长度(欧氏距离) = L2距离,对应 ||x||2
在这里插入图片描述

2. L2范数损失,这个听的/用的少一些

L2范数损失 = L2-norm损失 = 最小平方误差(least squares error, LSE) = 最小二乘误差 。它是把目标值y与估计值f(x)的差值的平方和最小化。一般回归问题会用此损失,离群点对次损失影响较大。
在这里插入图片描述

3-1. L2损失(均方误差)

L2损失(L2 Loss) = 均方误差(Mean Square Error,MSE)。是模型预测值f(x)与真实样本值y之间差值平方的均值,其公式如下
在这里插入图片描述

  • 优点:各点都连续光滑,方便求导,具有较为稳定的解
  • 缺点:不是特别的稳健,因为当函数的输入值距离真实值较远的时候,对应loss值很大在两侧,则使用梯度下降法求解的时候梯度很大,可能导致梯度爆炸

参考:区分混淆概念之L2范数,L2范数损失,L2损失,均方误差

3-2. L1损失(平均绝对误差)

L1损失 = 平均绝对误差(Mean Absolute Error,MAE)
在这里插入图片描述

  • 优点:无论对于什么样的输入值,都有着稳定的梯度,不会导致梯度爆炸问题,具有较为稳健性的解
  • 缺点:在中心点是折点,不能求导,梯度下降时要是恰好学习到w=0就没法接着进行了

参考:深度学习中常见的损失函数(L1Loss、L2loss)

4. L1范数L2范数在机器学习方面的区别

  • L1范数可以进行特征选择,即让特征的系数变为0。
  • L2范数可以防止过拟合,提升模型的泛化能力,有助于处理 condition number不好下的矩阵(数据变化很小矩阵求解后结果变化很大)。(核心:L2对大数,对outlier离群点更敏感!
  • 下降速度:最小化权值参数L1比L2变化的快。
  • 模型空间的限制:L1会产生稀疏 L2不会。
  • L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。
    原文链接:欧氏距离,l2范数,l2-loss,l2正则化

5. 为什么L2范数可以防止过拟合?

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/120034.html

(0)
上一篇 2025-11-01 12:33
下一篇 2025-11-01 13:00

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信