机器学习中的数学(2):均数

机器学习中的数学(2):均数该篇主要写个人对几种均值的理解

大家好,欢迎来到IT知识分享网。

生活中常见的均值为算术平均值(或平均数):将所有的数字加起来,然后除以数字的个数。

机器学习中的数学(2):均数

注:μ表示平均数,∑x表示数字的和,n表示数字个数

或使用频数计算算术平均值

机器学习中的数学(2):均数

注:∑f表示频数和,∑fx表示频数与数字的乘积和

生活中常遇到新闻上说当前某个城市的平均房价,平均工资。特别是平均工资特别让我们气愤,总感觉自己在拖国家后腿。其实我们是被平均了

姓名 收入(月)
张三 8000
王二 8000
李四 10000
张五 8000
陈六 5000
刘七 5000
马云
马化腾

如果按照算术平均数进行计算,上面个八个人的平均月收入是.5,不难看出平均月收入远低于平均收入。相对普通人的月收入,二马的收入被称为异常值。异常数据的存在经常导致的问题是数据倾斜。

机器学习中的数学(2):均数机器学习中的数学(2):均数机器学习中的数学(2):均数

当数据向右倾斜时,平均值大于大部分数字;当数据向左倾斜时,平均值小于大部分数字。

注:除上述图形的形式观察数据倾斜情况外,在数据统计过程中,我们常用方差,标准差等观察数据分布情况,这些在之后会说到

当偏斜数据和异常值使平均值产生误导时,我们需要用其他方式表示典型值,例如中间值,即中位数。首先我们把需要的值按照升序或者降序进行排列,取一列数中的中间的数字,如果该列数据为偶数,则取中间两个数的算术平均数。例如上面的月收入数据中间数为(8000,8000),取平均值得中位数为8000。中位数的主要特点就是不受分布数列的极大或极小值影响,从而在一定程度上提高了中位数对分布数列的代表性。

相比与平均数,如果数据未出现倾斜,中位数等于平均数;如果数据向右倾斜,则中位数小于平均数;反之则大于。

相比于老外,中国人都是无神论者,从古至今都是敢与天搏和地斗,用毛泽东的话说:“敢叫日月换新颜”。但是有些人就是命好,赶上拆迁了,个人资产瞬间提升。利于郑州的一个城中村的家庭存款情况汇总如下:

家庭存款(万) 10 20 30 3000 3500 5000
户数 2 5 3 3 5 2

不难算出上述表格中家庭存款平均数与中位数相等均为1515万。但是中位数与平均数都不能体现该村家庭存款的真实情况,这时我们需要另一个平均数——众数。

众数是数据集中出现频率最高的数值,与平均数与中位数不一样的是,众数是数据集中的一个数值,且该数值在数据集中频繁出现。有时,数据的众数可以不止一个。如果有一个以上的数值具有最大频数,则每一个这样的数值都是众数。如果数据看上去体现了多趋势或多批数据,那么我们就为每一批数据给出一个众数。如果一批数据有两个众数,则被称为双峰数据。

众数不仅能用于数值型数据,还能用于类别数据,众数是唯一能用于类别数据平均数。具有最高频数的组被称为众数组。

统计中常用的统计方法:观察法、金氏插入法、皮尔逊经验法

1、观察法:若数据已归类,则出现频数最多的数据即为众数;若数据已分组,则频数最多的那一组的组中值即为众数。用观察法求得的众数,一般是粗略众数。

2、金氏插入法:计算公式如下机器学习中的数学(2):均数或 机器学习中的数学(2):均数

式中L 表示众数所在组的精确下限,U 表示众数所在组的精确上限,fa 为与众数组下限相邻的频数,fb为与众数组上限相邻的频数, i 为组距。

3、皮尔逊经验法:计算公式机器学习中的数学(2):均数

式中ξ 为样本均值, Md 为中数,用皮尔逊公司计算所得众数近似于理论众数,常称为皮尔逊近似众数。众数是皮尔逊(Pearson,K.)最先提出并在生物统计学中使用的,以上是数据出自于离散型随机变量时求众数的方法,对于连续型随机变量ξ ,若概率密度函数为 f ,且 f 恰有一个最大值,则此最大值称为ξ 的众数,有时也把 f 的极大值称为众数; f 有两个以上极大值时,亦称复众数。

注:该文中部分内容参考了《深入浅出统计学》,百度百科

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/136151.html

(0)
上一篇 2025-06-29 17:15
下一篇 2025-06-29 17:26

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信