什么是卡方检验?

什么是卡方检验?卡方检验的分析过程可以分为几个步骤 并且根据检验的类型 如独立性检验 适合性检验等 会有所不同 但基本思路相似

大家好,欢迎来到IT知识分享网。

卡方检验

卡方检验(Chi-squared test,也写作χ² test)是一种统计学中的假设检验方法,主要用于判断观测数据与理论预期之间是否存在显著差异,进而分析两个分类变量之间是否独立或相关。它是非参数检验中的一种,适用于离散数据,尤其是计数数据。

卡方检验可以放到机器学习中 进行特征选择 看影响力度 大的则取

卡方检验的基本原理是通过计算一个称为卡方统计量(χ²)的值,来衡量实际观测频数与根据某种理论模型(如独立性假设下预期的频数分布)计算得到的理论频数之间的偏离程度
如果这个偏离程度很大,即卡方统计量的值相对于一定的自由度和显著性水平来说很大,那么就有理由拒绝原假设,认为观测数据与理论预期不符,两个分类变量之间可能不存在关联。

卡方检验有多种类型,包括但不限于:

  • 皮尔森卡方检验(Pearson’s chi-squared test),用于检验观察频数与期望频数之间的偏离,常用于检验两个分类变量的独立性
  • 卡方适合性检验Goodness-of-fit test),用来判断某个样本的分布是否符合特定的理论分布
  • 多个率或构成比的比较(如列联表分析),用于分析多个分类变量之间的关系

进行卡方检验时,需要满足一定的前提条件,比如期望频数不能过小。此外,卡方检验的结果需基于一定的显著性水平(如0.05或0.01)来解释,且自由度的计算也很重要,因为它决定了卡方分布的形状,从而影响到临界值的确定。

卡方检验的分析过程

1. 确定问题和假设

  • 零假设(H₀):两个分类变量(例如性别和对某政策的态度)是相互独立的,即一个变量的类别不会影响另一个变量的分布。
  • 备择假设(H₁):两个分类变量不是完全独立的,存在某种关联。

2. 收集和整理数据

  • 将数据整理成列联表(交叉表),其中行表示一个分类变量的类别,列表示另一个分类变量的类别,单元格内的数值为该行该列类别的观测频数。

3. 计算期望频数

  • 对于列联表中的每个单元格,根据行总和、列总和以及总样本量,计算在零假设成立时(即两变量独立)该单元格应有的期望频数

E i j = ( 行总 和 i × 列总 和 j ) 总样本量 E_{ij} = \frac{(行总和_i \times 列总和_j)}{总样本量} Eij=总样本量(行总i×列总j)

4. 计算卡方统计量

  • 卡方统计量(χ²)是通过比较每个单元格的观测频数(O)期望频数(E)的差异来计算的,公式如下:

χ 2 = ∑ i = 1 r ∑ j = 1 c ( O i j − E i j ) 2 E i j χ² = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} – E_{ij})^2}{E_{ij}} χ2=i=1rj=1cEij(OijEij)2

其中, r 是行数, c 是列数, ( O i j − E i j ) 2 / E i j 表示每个单元格的偏差平方除以其期望频数。 其中,r是行数,c 是列数,(O_{ij} – E_{ij})^2 / E_{ij}表示每个单元格的偏差平方除以其期望频数。 其中,r是行数,c是列数,(OijEij)2/Eij表示每个单元格的偏差平方除以其期望频数。

5. 确定自由度和临界值

  • 自由度计算公式为: d f = ( 行数 − 1 ) × ( 列数 − 1 ) df = (行数 – 1) \times (列数 – 1) df=(行数1)×(列数1)
  • 根据自由度和选定的显著性水平(如α=0.05),查卡方分布表得到对应的临界值(χ²临界值)。

6. 比较并做出决策

  • 将计算得到的卡方统计量与临界值比较:
    • 如果 χ 2 > χ 临界值 2 ,则拒绝零假设,认为观测数据与理论预期(两变量独立)之间存在显著差异,支持备择假设,即两个分类变量之间存在关联。 如果 χ² > χ²_{临界值} ,则拒绝零假设,认为观测数据与理论预期(两变量独立)之间存在显著差异,支持备择假设,即两个分类变量之间存在关联。 如果χ2>χ临界值2,则拒绝零假设,认为观测数据与理论预期(两变量独立)之间存在显著差异,支持备择假设,即两个分类变量之间存在关联。
    • 如果 χ 2 ≤ χ 临界值 2 ,则没有足够的证据拒绝零假设,认为数据支持两变量独立。 如果 χ² ≤ χ²_{临界值} ,则没有足够的证据拒绝零假设,认为数据支持两变量独立。 如果χ2χ临界值2,则没有足够的证据拒绝零假设,认为数据支持两变量独立。

7. 计算P值

  • 实际应用中,除了直接比较χ²值和临界值外,还可以计算出P值。P值是当零假设为真时,获得当前χ²统计量或更极端值的概率。如果P值小于选定的显著性水平(如α=0.05),同样意味着应拒绝零假设。

以上就是进行皮尔森卡方检验的一般过程及其涉及的主要公式。需要注意的是,在实际操作中,还应检查是否满足卡方检验的前提条件,比如确保每个单元格的期望频数不低于5(有的标准放宽到期望频数总和的80%不小于5),以防止χ²分布的近似性失效。

例子

通过一个具体的例子来理解卡方检验的计算过程。假设我们想要研究性别(男、女)与是否喜欢喝咖啡(喜欢、不喜欢)之间是否存在关联。我们随机调查了100人,收集到的数据如下:

喜欢咖啡 不喜欢咖啡 总计
男性 30 20 50
女性 40 10 50
总计 70 30 100

1. 建立假设

  • 零假设(H₀):性别与喜欢咖啡之间没有关联。
  • 备择假设(H₁):性别与喜欢咖啡之间存在关联。

2. 计算期望频数

  • 男性不喜欢咖啡的期望频数: E 男 , 不喜欢 = ( 男性总计 × 不喜欢咖啡总计 ) 总样本量 = 50 × 30 100 = 15 E_{男,不喜欢} = \frac{(男性总计 \times 不喜欢咖啡总计)}{总样本量} = \frac{50 \times 30}{100} = 15 E,不喜欢=总样本量(男性总计×不喜欢咖啡总计)=10050×30=15
  • 女性喜欢咖啡的期望频数: E 女 , 喜欢 = ( 女性总计 × 喜欢咖啡总计 ) 总样本量 = 50 × 70 100 = 35 E_{女,喜欢} = \frac{(女性总计 \times 喜欢咖啡总计)}{总样本量} = \frac{50 \times 70}{100} = 35 E,喜欢=总样本量(女性总计×喜欢咖啡总计)=10050×70=35
  • 女性不喜欢咖啡的期望频数: E 女 , 不喜欢 = ( 女性总计 × 不喜欢咖啡总计 ) 总样本量 = 50 × 30 100 = 15 E_{女,不喜欢} = \frac{(女性总计 \times 不喜欢咖啡总计)}{总样本量} = \frac{50 \times 30}{100} = 15 E,不喜欢=总样本量(女性总计×不喜欢咖啡总计)=10050×30=15

3. 计算卡方统计量

χ 2 = ∑ ( O − E ) 2 E χ² = \sum \frac{(O – E)^2}{E} χ2=E(OE)2

4. 确定自由度和临界值

自由度为: d f = ( 行数 − 1 ) × ( 列数 − 1 ) = ( 2 − 1 ) × ( 2 − 1 ) = 1 df = (行数 – 1) \times (列数 – 1) = (2-1) \times (2-1) = 1 df=(行数1)×(列数1)=(21)×(21)=1

对于α=0.05的显著性水平,查卡方分布表,当自由度为1时,临界值约为3.841。

5. 比较并做出决策

由于计算得到的卡方统计量 ( χ² ≈ 4.76 ) 大于临界值3.841,因此我们拒绝零假设,认为性别与喜欢喝咖啡之间存在显著的关联

规则:
如果卡方统计量大于临界值,意味着我们观察到的数据与零假设预测的模式(即变量间无关联)之间的差异大到不太可能是由于随机抽样误差造成的。因此,统计量落在了拒绝区域内,我们有足够的证据拒绝零假设,接受备择假设,即性别与喜欢喝咖啡之间存在显著的关联。

结论

通过上述步骤,我们发现在这个样本中,性别与喜欢喝咖啡之间存在统计学上的显著关联。这仅是一个示例,实际研究中还需要考虑样本代表性、误差范围等因素。

彩蛋

卡片检验不依据“左侧、右侧、双侧检验”结果进行决策,而是根据显著性原则进行决策

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/118127.html

(0)
上一篇 2025-11-15 16:20
下一篇 2025-11-15 16:33

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信