大家好,欢迎来到IT知识分享网。
深度学习:维度灾难
维度灾难的几何意义
假设有一个正方形,边长为1,那么面积为1 * 1。
正方形的内接圆的边长为0.5,面积为: pai * r *r。
假设一个正方体,边长为1,那么它的体积为 1 * 1 * 1。
正方体的内接球的半径为 3/4 * pai * r * r * r
按照这个规律,我们把维度拓展的 正方形为2维,正方体为3维,按照这个规律,我们把维度拓展到 n维。
此时 n维度 几何体的体积 就是n个1相乘,结果还是1.
然后 n维度 几何球体的体积就截然不同,设常数为K,体积则是:
K ∗ r n K*r^n K∗rn
因为r是小1的,所以几何球体当维度拓展到n维后,它的体积会逐渐趋近于0.
在这里我们来讨论一下如何理解体积,假设我们一个球体的体积=5,它们的总质量m是不会随着维度的升高而变化的,我们就说这个球体每单位体积中有5个数据。
补充说明 (r 如果大于1)
- 我们平时做machine learning 项目的时候,一般数据都是会做归一化的,所以会控制在1以内。
- 假设r=2,那么正方体边长就是4,我们把维度升高的10维,高纬正方体的体积就是10个4相乘=,而内接球体则是一个常数K乘10个2相乘,也就是2048 * K,它们在3维的体积相差不大,随着维度的升高,它们差距在不断增大,也可近似相对认为几何球体内没有数据。
维度灾难于过拟合的关系
但是数据量要随着维度的增加而增加,数据本身就是有噪声的,在数据不足的时候,结果就是分类器学习到了很多数据集中的特例,因此对于现实数据往往会效果较差,因为现实数据是没有这些噪声以及异常特性的。就像上图,把分类结果映射到底维,这种现象也就是我们熟知的过拟合。
缓解方法
- 增加数据
- L1\L2正则
- DropOut
- 降维
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/131331.html