大家好,欢迎来到IT知识分享网。
核心概念
- 随机变量 (Random Variable, RV): 将样本空间中的结果映射到实数的函数。分为离散型和连续型。
- 概率质量函数 (Probability Mass Function, PMF): 描述离散型随机变量取每个可能值的概率。记作 P(X = x)。
- 概率密度函数 (Probability Density Function, PDF): 描述连续型随机变量在某个值附近取值的可能性(概率密度)。在某个区间上的概率通过对 PDF 积分得到。记作 f(x)。
- 累积分布函数 (Cumulative Distribution Function, CDF): 描述随机变量 X 取值小于或等于某个数 x 的概率。记作 F(x) = P(X ≤ x)。适用于离散型和连续型。
- 期望 (Expected Value, Mean, μ): 随机变量所有可能取值以其概率为权的加权平均值。表示分布的中心位置。
- 方差 (Variance, σ²): 衡量随机变量取值与其期望值的离散程度。标准差 σ 是方差的平方根。


一、离散型概率分布 (Discrete Distributions)
- 伯努利分布 (Bernoulli Distribution) 描述: 描述单次伯努利试验(只有两种互斥结果:成功/失败、是/否、正面/反面)的结果。是二项分布的基础。 参数: p (一次试验中“成功”的概率, 0 ≤ p ≤ 1) 取值范围: X = 0 (失败) 或 X = 1 (成功) PMF: P(X = 1) = p, P(X = 0) = 1 – p 期望: E[X] = p 方差: Var(X) = p(1 – p) 应用: 任何单次二元结果事件(抛一次硬币、检查一个产品是否合格、一次点击是否转化)。
- 二项分布 (Binomial Distribution) 描述: 描述 n 次独立的伯努利试验中“成功”次数 X 的分布。 参数: n (试验总次数, n ≥ 1) p (每次试验“成功”的概率, 0 ≤ p ≤ 1) 取值范围: X = 0, 1, 2, …, n PMF: P(X = k) = C(n, k) * pᵏ * (1 – p)ⁿ⁻ᵏ (其中 C(n, k) = n! / (k!(n-k)!) 是组合数) 期望: E[X] = n * p 方差: Var(X) = n * p * (1 – p) 应用: 在固定次数的独立重复试验中统计成功次数(抛 n 次硬币得到正面的次数、抽样 n 个产品中的次品数、n 次广告展示的点击次数)。
- 几何分布 (Geometric Distribution) 描述 (版本1): 在一系列独立的伯努利试验中,得到第一次成功所需的试验次数 X。 参数: p (每次试验“成功”的概率, 0 < p ≤ 1) 取值范围: X = 1, 2, 3, … (第一次成功发生在第 X 次试验) PMF: P(X = k) = (1 – p)ᵏ⁻¹ * p 期望: E[X] = 1 / p 方差: Var(X) = (1 – p) / p² 应用 (版本1): 预测第一次成功发生的时间(打客服电话直到接通所需的次数、射击直到首次命中所需的子弹数、寻找第一个合格品所需的检查次数)。 注意: 存在另一个版本定义 X 为第一次成功前的失败次数(取值范围 X = 0, 1, 2, …),其期望和方差不同(E[X] = (1-p)/p, Var(X) = (1-p)/p²)。需明确约定使用的是哪个版本。
- 负二项分布 (Negative Binomial Distribution) / 帕斯卡分布 (Pascal Distribution) 描述: 在一系列独立的伯努利试验中,得到第 r 次成功所需的试验次数 X。 参数: r (目标成功次数, r ≥ 1) p (每次试验“成功”的概率, 0 < p ≤ 1) 取值范围: X = r, r+1, r+2, … PMF: P(X = k) = C(k – 1, r – 1) * pʳ * (1 – p)ᵏ⁻ʳ (其中 C(k-1, r-1) 是组合数,表示前 k-1 次试验中有 r-1 次成功的位置组合) 期望: E[X] = r / p 方差: Var(X) = r * (1 – p) / p² 应用: 预测达到指定成功次数所需的试验次数(第 r 个合格品出现在第几次检查、第 r 次命中需要多少发子弹)。当 r = 1 时,退化为几何分布(版本1)。
- 泊松分布 (Poisson Distribution) 描述: 描述在固定时间间隔(或空间区域)内,随机事件发生次数 X 的分布。事件的发生是独立的,且以恒定的平均速率 λ 发生。 参数: λ (事件在单位时间/空间内的平均发生率或期望发生次数, λ > 0) 取值范围: X = 0, 1, 2, 3, … (理论上无限) PMF: P(X = k) = (λᵏ * e⁻ᵞ) / k! 期望: E[X] = λ 方差: Var(X) = λ 应用: 描述稀有事件在固定时间/空间内的发生次数(一小时内的网站访问量、一平方米布料上的瑕疵点、一天内发生的交通事故数、一本书一页中的印刷错误数)。二项分布当 n 很大、p 很小时,可用泊松分布近似(λ ≈ n * p)。
- 离散均匀分布 (Discrete Uniform Distribution) 描述: 随机变量 X 在有限个离散值上取值的概率完全相同。 参数: a, b (整数, a ≤ b) 或 N (离散取值个数) 取值范围: X = a, a+1, a+2, …, b (共 N = b – a + 1 个可能值) PMF: P(X = x) = 1 / N (对所有 x = a, a+1, …, b) 期望: E[X] = (a + b) / 2 方差: Var(X) = ((b – a + 1)² – 1) / 12 应用: 等概率随机选择(骰子的点数、抽签、随机数生成器在有限整数范围内的输出)。
- 超几何分布 (Hypergeometric Distribution) 描述: 在不重复抽样(无放回抽样)中,从包含 K 个“成功”和 N – K 个“失败”的有限总体(大小为 N)中,抽出 n 个个体时包含的“成功”数 X 的分布。 参数: N (总体大小) K (总体中“成功”数, 0 ≤ K ≤ N) n (抽取的样本大小, 0 ≤ n ≤ N) 取值范围: X = max(0, n + K – N), …, min(n, K) (确保抽取的“成功”数不会超过样本大小 n 或总体“成功”数 K,且“失败”数不会超过总体“失败”数 N-K) PMF: P(X = k) = [C(K, k) * C(N – K, n – k)] / C(N, n) (其中 C(a, b) 是组合数) 期望: E[X] = n * (K / N) 方差: Var(X) = n * (K/N) * (1 – K/N) * ((N – n) / (N – 1)) 应用: 小总体无放回抽样(从 N 个产品(含 K 个次品)中抽 n 个,求次品数;池塘捕鱼标记重捕法估计)。当总体 N 很大而样本 n 相对较小时,近似于二项分布(p = K/N)。
二、连续型概率分布 (Continuous Distributions)
- 均匀分布 (Uniform Distribution) 描述: 随机变量 X 在区间 [a, b] 上取值的概率密度处处相等。 参数: a (下界), b (上界, a < b) 取值范围: a ≤ X ≤ b PDF: f(x) = 1 / (b – a) (当 a ≤ x ≤ b), f(x) = 0 (其他) CDF: F(x) = 0 (x < a), F(x) = (x – a)/(b – a) (a ≤ x ≤ b), F(x) = 1 (x > b) 期望: E[X] = (a + b) / 2 方差: Var(X) = (b – a)² / 12 应用: 在连续区间上等可能随机选择(模拟随机数生成、未知分布情况下的保守建模、排队论中顾客到达时间间隔的简化模型)。
- 正态分布 (Normal Distribution) / 高斯分布 (Gaussian Distribution) 描述: 最重要的连续分布!呈钟形曲线,关于均值对称。大量独立随机变量之和的分布趋于正态分布(中心极限定理)。 参数: μ (均值, 分布的中心位置) σ² (方差, 衡量分布的离散程度, σ² > 0) σ (标准差) 取值范围: ∞ < X < ∞ (理论上无限) PDF: f(x) = (1 / (σ√(2π))) * e^(-(x-μ)² / (2σ²)) CDF: 无封闭形式,需查表或使用软件计算。常通过标准化 (Z = (X – μ)/σ) 转化为标准正态分布 (μ=0, σ²=1) 的 CDF Φ(z) 来计算。 期望: E[X] = μ 方差: Var(X) = σ² 应用: 极其广泛(测量误差、自然现象(身高、体重)、金融收益(对数收益)、考试成绩、生物计量数据)。许多统计推断方法(如假设检验、置信区间)基于正态分布假设。
- 指数分布 (Exponential Distribution) 描述: 描述泊松过程中事件间等待时间(或生存时间)的分布。具有无记忆性(未来等待时间与过去已等待时间无关)。 参数: λ (事件发生率, λ > 0), 或 β (平均等待时间, β = 1/λ, β > 0) 取值范围: X ≥ 0 PDF: f(x) = λe^(-λx) (或 f(x) = (1/β)e^(-x/β)) CDF: F(x) = 1 – e^(-λx) (或 F(x) = 1 – e^(-x/β)) 期望: E[X] = 1 / λ (或 β) 方差: Var(X) = 1 / λ² (或 β²) 应用: 描述寿命或失效时间(电子元件寿命、客户服务时间、放射性衰变间隔)、事件间等待时间(地震间隔、网站访问间隔)。与泊松分布紧密相关(泊松描述次数,指数描述间隔)。
- 伽马分布 (Gamma Distribution) 描述: 描述达到指定次数(α次)的泊松事件发生所需总等待时间的分布。指数分布是伽马分布的特例 (α = 1)。 参数: α (形状参数, α > 0, 通常为整数表示事件次数) β (尺度参数, β > 0, 或 λ = 1/β 速率参数) 取值范围: X > 0 PDF: f(x) = [1 / (Γ(α) * βᵅ)] * x^(α-1) * e^(-x/β) (其中 Γ(α) 是伽马函数, 当 α 为正整数时 Γ(α) = (α-1)!) 期望: E[X] = α * β 方差: Var(X) = α * β² 应用: 总等待时间建模(α 个独立同分布指数随机变量之和)、非对称正偏态数据建模(保险索赔额、降雨量)、贝叶斯统计中的共轭先验。
- 卡方分布 (Chi-Squared Distribution, χ²) 描述: k 个独立的标准正态随机变量平方和的分布。是伽马分布的特例 (α = k/2, β = 2)。 参数: k (自由度, k ≥ 1 的整数) 取值范围: X > 0 PDF: f(x) = [1 / (2^(k/2) * Γ(k/2))] * x^(k/2 – 1) * e^(-x/2) 期望: E[X] = k 方差: Var(X) = 2k 应用: 统计推断的核心分布(方差估计与检验、分类数据卡方检验、拟合优度检验、置信区间构造)。
- t 分布 (Student’s t Distribution) 描述: 当样本量较小且总体方差未知时,标准化样本均值的精确分布(相对于用正态分布近似)。形状类似正态分布但尾部更厚。 参数: ν (自由度, ν > 0, 通常与样本量 n 相关, ν = n – 1) 取值范围: ∞ < X < ∞ PDF: 形式较复杂(涉及伽马函数),对称钟形,比标准正态分布矮胖、尾部厚。 期望: E[X] = 0 (当 ν > 1) 方差: Var(X) = ν / (ν – 2) (当 ν > 2, 当 ν ≤ 2 时方差无穷大) 应用: 小样本 (n < 30) 下的均值估计与检验(t 检验)、回归系数的显著性检验(t 统计量)。随着自由度 ν 增大,趋近于标准正态分布。
- F 分布 (F Distribution) 描述: 两个独立的卡方随机变量(自由度分别为 d₁ 和 d₂)各自除以自身自由度后的比值的分布。 参数: d₁ (分子自由度, d₁ > 0) d₂ (分母自由度, d₂ > 0) 取值范围: X > 0 PDF: 形式复杂(涉及贝塔函数),正偏态。 期望: E[X] = d₂ / (d₂ – 2) (当 d₂ > 2) 方差: 形式复杂(当 d₂ > 4 时存在)。 应用: 比较两个总体的方差(F 检验)、方差分析(ANOVA)、回归模型的整体显著性检验(F 统计量)。
- 贝塔分布 (Beta Distribution) 描述: 定义在区间 [0, 1] 上的连续分布,形状灵活(U型、J型、钟型、均匀型),非常适合建模比例或概率的不确定性。 参数: α (形状参数, α > 0) β (形状参数, β > 0) 取值范围: 0 ≤ X ≤ 1 PDF: f(x) = [Γ(α + β) / (Γ(α)Γ(β))] * x^(α-1) * (1 – x)^(β-1) (其中 Γ 是伽马函数) 期望: E[X] = α / (α + β) 方差: Var(X) = (αβ) / [(α + β)²(α + β + 1)] 应用: 贝叶斯统计中二项分布参数 p 的共轭先验分布、建模比例数据(产品合格率、选举中候选人得票率)、任务完成度。
- 对数正态分布 (Log-Normal Distribution) 描述: 如果一个随机变量 Y = ln(X) 服从正态分布,则称 X 服从对数正态分布。取值正偏态,右尾长。 参数: 由 Y = ln(X) ~ N(μ, σ²) 定义,参数为 μ (对数尺度下的均值), σ² (对数尺度下的方差, σ² > 0)。 取值范围: X > 0 PDF: f(x) = [1 / (xσ√(2π))] * e^{-(ln x – μ)² / (2σ²)} 期望: E[X] = e^(μ + σ²/2) 方差: Var(X) = [e^(σ²) – 1] * e^(2μ + σ²) 应用: 建模乘积效应或增长率导致的正偏态数据(股票价格、收入分布、某些疾病潜伏期、粒子大小、化学反应时间)。
- 威布尔分布 (Weibull Distribution) 描述: 非常灵活的可靠性分布,能描述递增、递减或恒定的失效率(故障率)。指数分布是其特例 (k = 1)。 参数: k (形状参数, k > 0。k < 1 失效率递减, k = 1 恒定, k > 1 递增) λ (尺度参数, λ > 0) 取值范围: X ≥ 0 PDF: f(x) = (k/λ) * (x/λ)^(k-1) * e^(-(x/λ)^k) CDF: F(x) = 1 – e^(-(x/λ)^k) 期望: E[X] = λ * Γ(1 + 1/k) (其中 Γ 是伽马函数) 方差: Var(X) = λ² * [Γ(1 + 2/k) – (Γ(1 + 1/k))²] 应用: 寿命数据分析、可靠性工程、失效时间建模(机械部件寿命、风速分布)。













免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/187535.html