统计学基础 | 概念全面梳理, 统计学不再难

统计学基础 | 概念全面梳理, 统计学不再难Hi 你好 我是玫森在日常工作场景中 当密密麻麻的数据表格铺满屏幕 是否有过无从下手的迷茫 又或者 当听到有人提及 总体 样本 参数 统计量 和 变量 这些术语的时候 陷入困惑 统计学不仅仅是枯燥的数字游戏 更是是一种语言 一

大家好,欢迎来到IT知识分享网。

Hi 你好,我是玫森

在日常工作场景中,当密密麻麻的数据表格铺满屏幕,是否有过无从下手的迷茫?又或者,当听到有人提及 “总体”、“样本”、“参数”、“统计量”和“变量”这些术语的时候,陷入困惑?统计学不仅仅是枯燥的数字游戏,更是是一种语言,一种帮助我们与数据深度对话的特殊语言。

统计学基础 | 概念全面梳理, 统计学不再难


下面带大家全面认识基础统计学的几个核心概念:

【定义, 应用,总体与样本,参数与统计量,变量、变量数据类型】

统计学的定义

统计学是一门关于用科学的方法收集、整理、汇总、描述和分析数据资料,并在此基础上进行推断和决策的科学。简单的说:收集数据,处理数据,分析数据,从中得出有意义信息,帮助你做推断和决策。

统计学的应用

它通常应用于两种类型的问题:描述性统计与推理性统计

1.描述性统计:

描述性统计学是统计学的一个分支,涉及数据的总结、组织和有意义、简洁的呈现。它专注于描述和分析数据集的主要特征和特性,而不对更大的总体进行概括或推断。

描述性统计的主要目标是提供数据的清晰、简洁的总结,使研究人员或分析师能够获得洞察力,理解数据集中的模式、趋势和分布。这种总结通常包括如中心趋势(例如,均值、中位数、众数)、离散度(例如,极差、方差、标准差)以及分布的形状(例如,偏度、峰度)等度量。

描述性统计学还涉及通过图表、图形和表格对数据进行图形表示,这可以进一步帮助可视化和解释信息。常见的图形技术包括直方图、条形图、饼图、散点图和箱线图(这些图形的应用场景与图形实操往后的分享中会陆续介绍到)

通过使用描述性统计学,研究人员可以有效地总结和传达数据集的关键特征,促进对数据的更好理解,并为进一步的统计分析或决策过程提供基础。

比如:假设有20名学生在某次考试中的以下分数:

85, 90, 75, 92, 88, 79, 83, 95, 87, 91, 78, 86, 89, 94, 82, 80, 84, 93, 88, 81

将数据Key in Minitab,通过如下路径可以计算出所有的统计量

统计学基础 | 概念全面梳理, 统计学不再难

统计学基础 | 概念全面梳理, 统计学不再难

得出用于描述这20个成绩数据的所有相关的统计量,如:均值,标准差、方差、中位数、极差、众数。

统计学基础 | 概念全面梳理, 统计学不再难

关于什么是统计量,继续往后阅读有介绍。

以上的统计量也可以通过多种图形用目视化的方式呈现,如用“图形化汇总”的方式,可以非常清晰的了解到关于此组数据所有统计量描述。

统计学基础 | 概念全面梳理, 统计学不再难

描述性统计就是通过这样对数据进行概括和总结方式,呈现样本的基本特征。

2.推理性统计:

推理性统计是通过样本数据对总体进行预测和推断的统计方法,涉及到假设检验、置信区间的工具,其核心思想是通过概率理论,量化样本结果对总体的推广性,帮助在数据不确定性下做出科学决策。

描述性统计输出的是数据,推理性统计输出的是推断 决策。

总体与样本

研究对象的全体称为总体,它通常由所研究的一些个体组成。如由多个企业构成的集合,多个居民户构成的集合等。

从总体中抽取一部分个体进行观察,被抽到的个体组成的总体为样本,若总体中的每一个体都有相同的机会被抽到,这样得到的样本是简单随机样本,简称样本(sample)

统计学基础 | 概念全面梳理, 统计学不再难

如:研究某一班学生的身高,所有学生身高的观测值的全体就构成该班学生的身高总体;而观测15名学生身高所得的15个观测值则是全班学生的身高总体的一个样本,这个样本包含有15个个体。

抽样的目的是根据样本提供的信息推断总体的特征。

比如,从一批灯泡中随机抽取100个,这100个灯泡就构成了一个样本,然后根据这 100个灯泡的平均使用寿命去推断这批灯泡的平均使用寿命。

参数与统计量

1. 参数(parameter):是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。对于一个总体,研究者所关心的参数通常有总体平均数、总体标准差、总体比例等。在统计中,总体参数通常用希腊字母表示。

比如,总体平均数用(mu)表示,总体标准差用σ(sigma)表示,总体比例用π(pi)表示等等。

由于总体数据通常是不知道的,所以参数通常也是一个未知的常数。

比如,我们不知道某一地区所有人口的平均年龄,不知道一个城市所有家庭的收入的差异,不知道一批产品的合格率等等。

统计学基础 | 概念全面梳理, 统计学不再难

正因为如此,才需要进行抽样,根据样本计算出某种统计量,然后估计总体参数。

2.) 统计量

数据分析的结果至少有以下三个特征:

  • 形状:通过直方图、分布图看形状,不同的形状暗示不同的数据信息。
统计学基础 | 概念全面梳理, 统计学不再难

  • 用于描述集中趋势的统计量: 均值、中位数、众数(下图红线表示均值位置)
  • 用于描述离中趋势的统计量:极差、方差、标准差、四分位间距(下图橙色线表示离中也叫离散,通常看标准差)
统计学基础 | 概念全面梳理, 统计学不再难

还是以考试分数为例,练习计算相关的统计量:假设你有20名学生在某次考试中的以下分数:

85, 90, 75, 92, 88, 79, 83, 95, 87, 91, 78, 86, 89, 94, 82, 80, 84, 93, 88, 81

  • 均值:将所有分数相加,然后除以分数的数量。均值 = (85 + 90 + … + 81) / 20 = 1770 / 20 = 88.5
统计学基础 | 概念全面梳理, 统计学不再难

  • 中位数:将分数按升序排列并找到中间值。中位数 = 86(中间值)

平均值描述正态数据,受极端值影响比较大,比如10个人中有一位是百万富翁,9位是穷光蛋,那么这种情况下我们就不能用均值来估计,需要用中位数,用于描述非正态数据的中心趋势。

  • 众数:识别出现最频繁的分数(出现次数最多的分数)。众数 = 88

从下图中大家能看到的是什么?

均值相同,但是离散程度不一样,下面的统计量是看离散程度的。

统计学基础 | 概念全面梳理, 统计学不再难

  • 极差R:R=Xmax – Xmin计算最高分和最低分之间的差异。范围 = 95 – 75 = 20
  • 方差:计算平均值与均值差的平方的平均值。方差 = [(85-88.5)^2 + … + (81-88.5)^2] / 20 = 33.25
统计学基础 | 概念全面梳理, 统计学不再难

  • 标准差:取方差的平方根。标准差 = √33.25 = 5.77

方差告诉我们所有数据到平均数有多远,标准差可理解为“每个数据点到平均数的平均距离,实际应用中当然不用手动计算这么麻烦,Minitab 工具可以帮助我们简便完成。

  • 四分位间距

第一四分位数(Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。

第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。

第三四分位数(Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

第三四分位数与第一四分位数的差距又称 四分位间距(InterQuartile Range, IQR)

基础图形箱线图会非常直观的呈现四分位间距,往后会单独的模块详细介绍到

统计学基础 | 概念全面梳理, 统计学不再难

以上是描述样本相关统计量的介绍。统计量(statistic)是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数。

统计学基础 | 概念全面梳理, 统计学不再难

对于一个总体,研究者所关心的统计量通常有样本平均数、样本标准差、样本比率等。样本统计量通常用英文字母来表示。

比如,样本平均数用x̄(读作x-bar)表示,样本标准差用s表示,样本比例用p表示等等。

由于样本是已经抽出来的,所以统计量总是知道的。抽样的目的就是要根据样本统计量去估计总体参数。

比如,用样本平均数(x̄)去估计总体平均数(μ),用样本标准差(s)去估计总体标准差(σ),用样本比例(p)去估计总体比例(π)等等;

下图展示了总体和样本、参数和统计量的表达方式。

统计学基础 | 概念全面梳理, 统计学不再难

变 量

当我们在进行图形制作时,通常需要选择“变量”,什么是变量?

统计学基础 | 概念全面梳理, 统计学不再难

变量(variable)是说明现象某种特征的概念,

在初等数学中,变量是表示数字的字母字符,具有任意性和未知性。把变量当作是显式数字一样,对其进行代数计算,可以在单个计算中解决很多问题。

变量概念也是微积分的基础。通常,函数y = f(x)涉及两个变量y和x,分别表示函数的值和参数。术语“变量”来源于当参数(也称为“函数的变量”)变化时,值相应变化。在六西格玛统计学的应用当中,y称为响应变量,是特性值,x称为自变量,是因子。比如散点图的应用中,看拉力值与 温度之间的关系,则Y是拉力,X 是温度。

统计学基础 | 概念全面梳理, 统计学不再难

认识数据类型

在数据分析与统计学中,数据可以根据其性质被分为两大类:连续型数据和离散型数据。

1. 连续型数据:

定义:在一定区间内可以取任意数值的数据类型,这些数值是连续不断的,且相邻两个值之间可以无限细分。

示例:身高(如160cm, 160.1cm, 160.12cm等)、体重(如50kg, 50.5kg, 50.54kg等)、温度(如23°C, 23.1°C, 23.12°C等)、光强、长度等

2. 离散型数据:

定义:只能取特定数值或整数,且这些数值之间存在明显的间隔或跳跃的数据类型。

示例:人数(如1人, 2人, 3人等)、商品数量(如1件, 2件, 5件等)、考试成绩(如90分, 85分, 78分等,假设分数以整数计)、单个LED颗粒上气泡的数量,合格/不合格,是/否, 通过/失败,接受/不接受的数量等,这种数据的数值一般用计数方法取得。

不同类型的数据将采用不同的统计方法来处理和分析。

过程能力分析工具选择路径:

统计学基础 | 概念全面梳理, 统计学不再难

控制图工具的选择路径:

统计学基础 | 概念全面梳理, 统计学不再难

还有MSA 、DOE、假设检验等统计工具,就不一一 展示了。

统计学是一门研究数据收集、分析和解释的科学领域。在理解统计学的核心概念和应用时,我们需要掌握总体、样本、参数、统计量、变量和数据类型等基本概念。

正确理解它们将为我们日后更深入的质量,六西格玛工具学习和实践奠定坚实的基础。如果您对统计学的基本概念有任何疑问或想法,欢迎私发留言讨论。

统计学基础 | 概念全面梳理, 统计学不再难

个人微信公众号 欢迎关注

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/182664.html

(0)
上一篇 2025-07-06 07:00
下一篇 2025-07-06 07:20

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信