大家好,欢迎来到IT知识分享网。
1、简介
正态分布(Normal Distribution),又名高斯分布(Gaussian Distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
2、高斯分布详解
- x 在 μ-σ 和 μ+σ 之间的样本数量占到整个样本数量的 68.2%;
- x 在 μ-2σ 和 μ+2σ 之间的样本数量占到整个样本数量的 95.4%;
- x 在 μ-3σ 和 μ+3σ 之间的样本数量占到整个样本数量的99.6%;
高斯分布作为分布特性的一种,首先是用来描述统计对象的,如果统计对象的分布特性符合高斯分布,那么所有针对高斯分布的定理和“经验值”就能够直接套用。而高斯分布本身在自然界的应用是非常广泛的,用一句话解释高斯分布所表现的分布特点就是“一般般的很多,极端的很少”。
这里举一个具体的例子,假如对某一地区的男性身高做了一个随机抽样,一共 1000 人,结果发现他们的身高是一个 μ=175cm 的高斯分布,σ=10cm。那么首先,这样一个描述就已经能够清晰地说明这个抽样检查的结果了,而以下结论也就随之成立(图 3 )。
- 身高 165~175cm 的人(大约)有 341 名。
- 身高 175~185cm 的人(大约)有 341 名。
- 身高 155~165cm 的人(大约)有 136 名。
- 身高 185~195cm 的人(大约)有 136 名。
- 身高 145~155cm 的人(大约)有 21 名。
- 身高 195~205cm 的人(大约)有 21 名。
这些数量基本已经涵盖了统计总人数的 99.6 %。需要注意的是,根据统计的情况在不同的条件下 μ 和 σ 的值可能会不同: - μ 较大,则整个函数图像的中轴向右挪动比较多。
- μ 较小,则函数图像的中轴向左挪动比较多。
- σ 较大,则整个曲线绵延比较长,整个坡度显得平缓。
- σ 较小,整个曲线窄而立陡。
再如,全社会范围内的收入,中档次收入的人比较多,特别贫穷和特别富裕的人较少,但是他们在地域上的分布和职业类别上的分布可能就不那么均匀了。诸如此类的例子还有很多。
3、高斯分布应用
首先刚才说过,如果在统计过程中发现一个样本呈现高斯分布的特性,只需要把样本总数量、μ 和 σ 表述出来,就已经能够形成一个完整的画面感了。这对人们描述对象是有很大帮助的。还有一个好处,就是我们发现了这样一个特性以后,在生产制造、商业等领域会有很多对应性的用法能够减少不必要的投入或损失。
例如,在设计一款服装后,S/M/L/XL 这些号码怎么设计比较合理呢?设计完了制造多少较合理呢?这时就可以在抽样后在高斯分布曲线上找到这些合适的点。既然 μ-σ 和 μ+σ 之间已经占 68.2%了,那么如果没有足够的预算或者精力,可以只先尝试做一个以 μ 为标准的板式,针对一部分人打板做市场推广。因为再做 μ-σ 和 μ+σ 这两个如此不同的板式,打板成本将会再提高 2 倍,但是增益仅有不到 50%(这从概率密度函数上就可以看出来)。这其实就是一种针对市场迎合的分析和尝试,即优先做那些受众情况最一般、人数最集中的部分。
再如,常常会听到“二八法则”这种说法,在不同的场景里这可能是高斯分布的一种形式。假设正在经营一家游戏公司,公司有一款刚起步不久的产品 A 游戏,A 游戏有 1 万用户,如果想做这一款游戏的用户拓展工作应该怎么去考虑呢?
或许可以尝试这样:先看看这 1 万用户中每个用户平均在游戏里充值花多少钱,做一个排名。不花钱玩的人会不少,还有一些花极多的钱来玩游戏的玩家,中间的是中坚力量(用户数量大),每个人花费的额度适中,持续周期较长,这样的一群人更值得关注。对于这些用户,如果能够知道他们加入游戏的渠道的分布比例,就有理由相信这些渠道的特点和它们覆盖这些用户的特点是有相关性的。
例如,这些表活跃的用户究竟是经由在大学校园里做宣传活动加入的,还是由于在某些游戏门户网站发的广告加入的,还是通过某些免费软件的推广渠道加入的。那么如果想扩大这部分用户的数量可以对应地加大这部分渠道的流量。至少直观上看,这比盲目地进行全方位立体交叉的广告投放效果要好。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/134113.html