什么是卡方检验？_IT分享知识网

大家好，欢迎来到IT知识分享网。

文章目录

卡方检验

卡方检验（Chi-squared test，也写作χ² test）是一种统计学中的假设检验方法，主要用于判断观测数据与理论预期之间是否存在显著差异，进而分析两个分类变量之间是否独立或相关。它是非参数检验中的一种，适用于离散数据，尤其是计数数据。

卡方检验可以放到机器学习中进行特征选择看影响力度大的则取

卡方检验的基本原理是通过计算一个称为卡方统计量（χ²）的值，来衡量实际观测频数与根据某种理论模型（如独立性假设下预期的频数分布）计算得到的理论频数之间的偏离程度。
如果这个偏离程度很大，即卡方统计量的值相对于一定的自由度和显著性水平来说很大，那么就有理由拒绝原假设，认为观测数据与理论预期不符，两个分类变量之间可能不存在关联。

卡方检验有多种类型，包括但不限于：

皮尔森卡方检验（Pearson’s chi-squared test），用于检验观察频数与期望频数之间的偏离，常用于检验两个分类变量的独立性。
卡方适合性检验（Goodness-of-fit test），用来判断某个样本的分布是否符合特定的理论分布。
多个率或构成比的比较（如列联表分析），用于分析多个分类变量之间的关系。

进行卡方检验时，需要满足一定的前提条件，比如期望频数不能过小。此外，卡方检验的结果需基于一定的显著性水平（如0.05或0.01）来解释，且自由度的计算也很重要，因为它决定了卡方分布的形状，从而影响到临界值的确定。

卡方检验的分析过程

1. 确定问题和假设

零假设（H₀）：两个分类变量（例如性别和对某政策的态度）是相互独立的，即一个变量的类别不会影响另一个变量的分布。
备择假设（H₁）：两个分类变量不是完全独立的，存在某种关联。

2. 收集和整理数据

将数据整理成列联表（交叉表），其中行表示一个分类变量的类别，列表示另一个分类变量的类别，单元格内的数值为该行该列类别的观测频数。

3. 计算期望频数

对于列联表中的每个单元格，根据行总和、列总和以及总样本量，计算在零假设成立时（即两变量独立）该单元格应有的期望频数。

$E_{ij} = \frac{(行总和_i \times 列总和_j)}{总样本量}$

4. 计算卡方统计量

卡方统计量（χ²）是通过比较每个单元格的观测频数（O）与期望频数（E）的差异来计算的，公式如下：

$\sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} – E_{ij})^2}{E_{ij}}$

$其中，r是行数，c 是列数，(O_{ij} – E_{ij})^2 / E_{ij}表示每个单元格的偏差平方除以其期望频数。$

5. 确定自由度和临界值

自由度计算公式为： $\times (列数 – 1)$
根据自由度和选定的显著性水平（如α=0.05），查卡方分布表得到对应的临界值（χ²临界值）。

6. 比较并做出决策

将计算得到的卡方统计量与临界值比较：
- $χ²_{临界值} ，则拒绝零假设，认为观测数据与理论预期（两变量独立）之间存在显著差异，支持备择假设，即两个分类变量之间存在关联。$
- $χ²_{临界值} ，则没有足够的证据拒绝零假设，认为数据支持两变量独立。$

7. 计算P值

实际应用中，除了直接比较χ²值和临界值外，还可以计算出P值。P值是当零假设为真时，获得当前χ²统计量或更极端值的概率。如果P值小于选定的显著性水平（如α=0.05），同样意味着应拒绝零假设。

以上就是进行皮尔森卡方检验的一般过程及其涉及的主要公式。需要注意的是，在实际操作中，还应检查是否满足卡方检验的前提条件，比如确保每个单元格的期望频数不低于5（有的标准放宽到期望频数总和的80%不小于5），以防止χ²分布的近似性失效。

例子

通过一个具体的例子来理解卡方检验的计算过程。假设我们想要研究性别（男、女）与是否喜欢喝咖啡（喜欢、不喜欢）之间是否存在关联。我们随机调查了100人，收集到的数据如下：

	喜欢咖啡	不喜欢咖啡	总计
男性	30	20	50
女性	40	10	50
总计	70	30	100

1. 建立假设

零假设（H₀）：性别与喜欢咖啡之间没有关联。
备择假设（H₁）：性别与喜欢咖啡之间存在关联。

2. 计算期望频数

男性不喜欢咖啡的期望频数： $E_{男,不喜欢} = \frac{(男性总计 \times 不喜欢咖啡总计)}{总样本量} = \frac{50 \times 30}{100} = 15$
女性喜欢咖啡的期望频数： $E_{女,喜欢} = \frac{(女性总计 \times 喜欢咖啡总计)}{总样本量} = \frac{50 \times 70}{100} = 35$
女性不喜欢咖啡的期望频数： $E_{女,不喜欢} = \frac{(女性总计 \times 不喜欢咖啡总计)}{总样本量} = \frac{50 \times 30}{100} = 15$

3. 计算卡方统计量

$\sum \frac{(O – E)^2}{E}$

4. 确定自由度和临界值

自由度为： $\times (列数 – 1) = (2-1) \times (2-1) = 1$

对于α=0.05的显著性水平，查卡方分布表，当自由度为1时，临界值约为3.841。

5. 比较并做出决策

由于计算得到的卡方统计量 ( χ² ≈ 4.76 ) 大于临界值3.841，因此我们拒绝零假设，认为性别与喜欢喝咖啡之间存在显著的关联。

规则：
如果卡方统计量大于临界值，意味着我们观察到的数据与零假设预测的模式（即变量间无关联）之间的差异大到不太可能是由于随机抽样误差造成的。因此，统计量落在了拒绝区域内，我们有足够的证据拒绝零假设，接受备择假设，即性别与喜欢喝咖啡之间存在显著的关联。

结论

通过上述步骤，我们发现在这个样本中，性别与喜欢喝咖啡之间存在统计学上的显著关联。这仅是一个示例，实际研究中还需要考虑样本代表性、误差范围等因素。

彩蛋

卡片检验不依据“左侧、右侧、双侧检验”结果进行决策，而是根据显著性原则进行决策

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/118127.html

什么是卡方检验？