大家好,欢迎来到IT知识分享网。
文章目录
卡方检验
卡方检验(Chi-squared test,也写作χ² test)是一种统计学中的假设检验方法,主要用于判断观测数据与理论预期之间是否存在显著差异,进而分析两个分类变量之间是否独立或相关。它是非参数检验中的一种,适用于离散数据,尤其是计数数据。
卡方检验可以放到机器学习中 进行特征选择 看影响力度 大的则取
卡方检验的基本原理是通过计算一个称为卡方统计量(χ²)的值,来衡量实际观测频数与根据某种理论模型(如独立性假设下预期的频数分布)计算得到的理论频数之间的偏离程度。
如果这个偏离程度很大,即卡方统计量的值相对于一定的自由度和显著性水平来说很大,那么就有理由拒绝原假设,认为观测数据与理论预期不符,两个分类变量之间可能不存在关联。
卡方检验有多种类型,包括但不限于:
皮尔森卡方检验(Pearson’s chi-squared test),用于检验观察频数与期望频数之间的偏离,常用于检验两个分类变量的独立性。卡方适合性检验(Goodness-of-fit test),用来判断某个样本的分布是否符合特定的理论分布。多个率或构成比的比较(如列联表分析),用于分析多个分类变量之间的关系。
进行卡方检验时,需要满足一定的前提条件,比如期望频数不能过小。此外,卡方检验的结果需基于一定的显著性水平(如0.05或0.01)来解释,且自由度的计算也很重要,因为它决定了卡方分布的形状,从而影响到临界值的确定。
卡方检验的分析过程
1. 确定问题和假设
- 零假设(H₀):两个分类变量(例如性别和对某政策的态度)是相互
独立的,即一个变量的类别不会影响另一个变量的分布。 - 备择假设(H₁):两个分类变量
不是完全独立的,存在某种关联。
2. 收集和整理数据
- 将数据整理成列联表(交叉表),其中行表示一个分类变量的类别,列表示另一个分类变量的类别,单元格内的数值为该行该列类别的
观测频数。
3. 计算期望频数
- 对于列联表中的每个单元格,根据
行总和、列总和以及总样本量,计算在零假设成立时(即两变量独立)该单元格应有的期望频数。
E i j = ( 行总 和 i × 列总 和 j ) 总样本量 E_{ij} = \frac{(行总和_i \times 列总和_j)}{总样本量} Eij=总样本量(行总和i×列总和j)
4. 计算卡方统计量
- 卡方统计量(χ²)是通过比较
每个单元格的观测频数(O)与期望频数(E)的差异来计算的,公式如下:
χ 2 = ∑ i = 1 r ∑ j = 1 c ( O i j − E i j ) 2 E i j χ² = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} – E_{ij})^2}{E_{ij}} χ2=i=1∑rj=1∑cEij(Oij−Eij)2
其中, r 是行数, c 是列数, ( O i j − E i j ) 2 / E i j 表示每个单元格的偏差平方除以其期望频数。 其中,r是行数,c 是列数,(O_{ij} – E_{ij})^2 / E_{ij}表示每个单元格的偏差平方除以其期望频数。 其中,r是行数,c是列数,(Oij−Eij)2/Eij表示每个单元格的偏差平方除以其期望频数。
5. 确定自由度和临界值
- 自由度计算公式为: d f = ( 行数 − 1 ) × ( 列数 − 1 ) df = (行数 – 1) \times (列数 – 1) df=(行数−1)×(列数−1)
- 根据
自由度和选定的显著性水平(如α=0.05),查卡方分布表得到对应的临界值(χ²临界值)。
6. 比较并做出决策
- 将计算得到的
卡方统计量与临界值比较:- 如果 χ 2 > χ 临界值 2 ,则拒绝零假设,认为观测数据与理论预期(两变量独立)之间存在显著差异,支持备择假设,即两个分类变量之间存在关联。 如果 χ² > χ²_{临界值} ,则拒绝零假设,认为观测数据与理论预期(两变量独立)之间存在显著差异,支持备择假设,即两个分类变量之间存在关联。 如果χ2>χ临界值2,则拒绝零假设,认为观测数据与理论预期(两变量独立)之间存在显著差异,支持备择假设,即两个分类变量之间存在关联。
- 如果 χ 2 ≤ χ 临界值 2 ,则没有足够的证据拒绝零假设,认为数据支持两变量独立。 如果 χ² ≤ χ²_{临界值} ,则没有足够的证据拒绝零假设,认为数据支持两变量独立。 如果χ2≤χ临界值2,则没有足够的证据拒绝零假设,认为数据支持两变量独立。
7. 计算P值
- 实际应用中,除了直接比较χ²值和临界值外,还可以计算出P值。P值是当零假设为真时,获得当前χ²统计量或更极端值的概率。如果P值小于选定的显著性水平(如α=0.05),同样意味着应拒绝零假设。
以上就是进行皮尔森卡方检验的一般过程及其涉及的主要公式。需要注意的是,在实际操作中,还应检查是否满足卡方检验的前提条件,比如确保每个单元格的期望频数不低于5(有的标准放宽到期望频数总和的80%不小于5),以防止χ²分布的近似性失效。
例子
通过一个具体的例子来理解卡方检验的计算过程。假设我们想要研究性别(男、女)与是否喜欢喝咖啡(喜欢、不喜欢)之间是否存在关联。我们随机调查了100人,收集到的数据如下:
| 喜欢咖啡 | 不喜欢咖啡 | 总计 | |
|---|---|---|---|
| 男性 | 30 | 20 | 50 |
| 女性 | 40 | 10 | 50 |
| 总计 | 70 | 30 | 100 |
1. 建立假设
- 零假设(H₀):性别与喜欢咖啡之间
没有关联。 - 备择假设(H₁):性别与喜欢咖啡之间
存在关联。
2. 计算期望频数
- 男性不喜欢咖啡的期望频数: E 男 , 不喜欢 = ( 男性总计 × 不喜欢咖啡总计 ) 总样本量 = 50 × 30 100 = 15 E_{男,不喜欢} = \frac{(男性总计 \times 不喜欢咖啡总计)}{总样本量} = \frac{50 \times 30}{100} = 15 E男,不喜欢=总样本量(男性总计×不喜欢咖啡总计)=10050×30=15
- 女性喜欢咖啡的期望频数: E 女 , 喜欢 = ( 女性总计 × 喜欢咖啡总计 ) 总样本量 = 50 × 70 100 = 35 E_{女,喜欢} = \frac{(女性总计 \times 喜欢咖啡总计)}{总样本量} = \frac{50 \times 70}{100} = 35 E女,喜欢=总样本量(女性总计×喜欢咖啡总计)=10050×70=35
- 女性不喜欢咖啡的期望频数: E 女 , 不喜欢 = ( 女性总计 × 不喜欢咖啡总计 ) 总样本量 = 50 × 30 100 = 15 E_{女,不喜欢} = \frac{(女性总计 \times 不喜欢咖啡总计)}{总样本量} = \frac{50 \times 30}{100} = 15 E女,不喜欢=总样本量(女性总计×不喜欢咖啡总计)=10050×30=15
3. 计算卡方统计量
χ 2 = ∑ ( O − E ) 2 E χ² = \sum \frac{(O – E)^2}{E} χ2=∑E(O−E)2
4. 确定自由度和临界值
自由度为: d f = ( 行数 − 1 ) × ( 列数 − 1 ) = ( 2 − 1 ) × ( 2 − 1 ) = 1 df = (行数 – 1) \times (列数 – 1) = (2-1) \times (2-1) = 1 df=(行数−1)×(列数−1)=(2−1)×(2−1)=1
对于α=0.05的显著性水平,查卡方分布表,当自由度为1时,临界值约为3.841。
5. 比较并做出决策
由于计算得到的卡方统计量 ( χ² ≈ 4.76 ) 大于临界值3.841,因此我们拒绝零假设,认为性别与喜欢喝咖啡之间存在显著的关联。
规则:
如果卡方统计量大于临界值,意味着我们观察到的数据与零假设预测的模式(即变量间无关联)之间的差异大到不太可能是由于随机抽样误差造成的。因此,统计量落在了拒绝区域内,我们有足够的证据拒绝零假设,接受备择假设,即性别与喜欢喝咖啡之间存在显著的关联。
结论
通过上述步骤,我们发现在这个样本中,性别与喜欢喝咖啡之间存在统计学上的显著关联。这仅是一个示例,实际研究中还需要考虑样本代表性、误差范围等因素。
彩蛋
卡片检验不依据“左侧、右侧、双侧检验”结果进行决策,而是根据显著性原则进行决策
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/118127.html