大家好,欢迎来到IT知识分享网。
一、何为数据的偏态分布?
频数分布有正态分布和偏态分布之分。正态分布是指多数频数集中在中央位置,两端的频数分布大致对称。
偏态分布是指频数分布不对称,集中位置偏向一侧。若集中位置偏向数值小的一侧,称为正偏态分布;集中位置偏向数值大的一侧,称为负偏态分布。
如果频数分布的高峰向左偏移,长尾向右侧延伸称为正偏态分布,也称右偏态分布;同样的,如果频数分布的高峰向右偏移,长尾向左延伸则成为负偏态分布,也称左偏态分布。
峰左移,右偏,正偏 偏度大于0
二、构建模型时为什么要尽量将偏态数据转换为正态分布数据?
数据整体服从正态分布,那样本均值和方差则相互独立。正态分布具有很多好的性质,很多模型假设数据服从正态分布。例如线性回归(linear regression),它假设误差服从正态分布,从而每个样本点出现的概率就可以表示成正态分布的形式,将多个样本点连乘再取对数,就是所有训练集样本出现的条件概率,最大化这个条件概率就是LR要最终求解的问题。这里这个条件概率的最终表达式的形式就是我们熟悉的误差平方和。总之, ML中很多model都假设数据或参数服从正态分布。
三:如何检验样本是否服从正态分布?
由于P-P图和Q-Q图的用途完全相同,只是检验方法存在差异。要利用图鉴别样本数据是否近似于正态分布,只需看图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值.
四 :如果不是正态分布怎么办?
五、Box-Cox
y = (xlmbda - 1) / lmbda, for lmbda > 0 log(x), for lmbda = 0
http://onlinestatbook.com/2/transformations/box-cox.html
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/130370.html