大家好,欢迎来到IT知识分享网。
概率基础——大数定律
介绍
大数定律是概率论中的一个重要定理,它描述了随机变量序列的均值在概率意义下收敛于其数学期望的现象。简单来说,大数定律说明了当试验次数足够多时,样本平均值将逼近于总体均值。在实际应用中,大数定律为统计学和概率论提供了重要的理论基础,也是估计总体参数的一种重要方法。
理论及公式
弱大数定律
设 X 1 , X 2 , … , X n X_1, X_2, \ldots, X_n X1,X2,…,Xn是相互独立、具有相同分布、且具有有限数学期望 μ \mu μ的随机变量序列,定义其样本平均为
X ‾ n = 1 n ∑ i = 1 n X i \overline{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i Xn=n1i=1∑nXi
则对于任意正数 ϵ > 0 \epsilon > 0 ϵ>0,有
lim n → ∞ P ( ∣ X ‾ n − μ ∣ ≥ ϵ ) = 0 \lim_{n \to \infty} P(|\overline{X}_n – \mu| \geq \epsilon) = 0 n→∞limP(∣Xn−μ∣≥ϵ)=0
即样本平均 X ‾ n \overline{X}_n Xn以概率1收敛于总体均值 μ \mu μ。
较强大数定律
设 X 1 , X 2 , … , X n X_1, X_2, \ldots, X_n X1,X2,…,Xn是独立同分布的随机变量序列,且具有有限的数学期望 μ \mu μ,则对于任意正数 ϵ > 0 \epsilon > 0 ϵ>0,有
P ( lim n → ∞ X ‾ n = μ ) = 1 P(\lim_{n \to \infty} \overline{X}_n = \mu) = 1 P(n→∞limXn=μ)=1
即样本平均 X ‾ n \overline{X}_n Xn 以概率1收敛于总体均值 μ \mu μ。
推导过程
弱大数定律的推导
我们使用切比雪夫不等式来证明弱大数定律。
由切比雪夫不等式:
P ( ∣ X − μ ∣ ≥ k σ ) ≤ 1 k 2 P(|X – \mu| \geq k\sigma) \leq \frac{1}{k^2} P(∣X−μ∣≥kσ)≤k21
将 X X X替换为样本平均 X ‾ n \overline{X}_n Xn, μ \mu μ替换为总体均值 μ \mu μ, σ \sigma σ替换为样本平均的标准差 σ n \frac{\sigma}{\sqrt{n}} nσ
P ( ∣ X ‾ n − μ ∣ ≥ k ⋅ σ n ) ≤ 1 k 2 P(|\overline{X}_n – \mu| \geq k \cdot \frac{\sigma}{\sqrt{n}}) \leq \frac{1}{k^2} P(∣Xn−μ∣≥k⋅nσ)≤k21
当 n → ∞ n \to \infty n→∞ 时,有 k ⋅ σ n → 0 k \cdot \frac{\sigma}{\sqrt{n}} \to 0 k⋅nσ→0,因此 P ( ∣ X ‾ n − μ ∣ ≥ ϵ ) → 0 P(|\overline{X}_n – \mu| \geq \epsilon) \to 0 P(∣Xn−μ∣≥ϵ)→0,即样本平均 X ‾ n \overline{X}_n Xn概率1收敛于总体均值 μ \mu μ。
大数定律的推导
假设 X 1 , X 2 , . . . , X n X_1, X_2, …, X_n X1,X2,…,Xn是一组独立同分布的随机变量序列,它们的均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2。令 S n = X 1 + X 2 + . . . + X n S_n = X_1 + X_2 + … + X_n Sn=X1+X2+…+Xn,则 S n S_n Sn的期望为 n μ n\mu nμ,方差为 n σ 2 n\sigma^2 nσ2。
根据切比雪夫不等式,对于任意给定的正数 ϵ \epsilon ϵ,有:
P ( ∣ S n − n μ ∣ ≥ n ϵ ) ≤ n σ 2 n 2 ϵ 2 = σ 2 n ϵ 2 P(|S_n – n\mu| \geq n\epsilon) \leq \frac{n\sigma^2}{n^2\epsilon^2} = \frac{\sigma^2}{n\epsilon^2} P(∣Sn−nμ∣≥nϵ)≤n2ϵ2nσ2=nϵ2σ2
令 n → ∞ n \to \infty n→∞,则 σ 2 n ϵ 2 → 0 \frac{\sigma^2}{n\epsilon^2} \to 0 nϵ2σ2→0。因此,对于足够大的 n n n,有 P ( ∣ S n − n μ ∣ ≥ n ϵ ) → 0 P(|S_n – n\mu| \geq n\epsilon) \to 0 P(∣Sn−nμ∣≥nϵ)→0,即:
P ( ∣ S n − n μ ∣ < n ϵ ) → 1 P(|S_n – n\mu| < n\epsilon) \to 1 P(∣Sn−nμ∣<nϵ)→1
即样本的平均值 S n n \frac{S_n}{n} nSn在 n → ∞ n \to \infty n→∞时以概率 1 1 1趋近于总体均值 μ \mu μ。
模拟大数定律的案例1
生成3组各15000个服从参数为(10,0.4)的二项分布变量,随机变量的期望 n × p n×p n×p=4,然后观察随着样本数目的增大,样本均值和实际分布期望之间的关系。
import numpy as np from scipy.stats import binom import matplotlib.pyplot as plt n = 10 p = 0.4 sample_size = 15000 expected_value = n * p N_samples = range(1, sample_size, 10) for k in range(3): binom_rv = binom(n, p) X = binom_rv.rvs(sample_size) sample_average = [X[: i].mean() for i in N_samples] plt.plot(N_samples, sample_average, label=f'average of sample {
k}') plt.plot(N_samples, expected_value * np.ones_like(sample_average), ls='--', label=f'true expected value:n*p={
n * p}', c='k') plt.ylim([3.0, 5.0]) plt.legend() plt.grid() plt.show()
设置了3个相同的试验组,从试验结果来看,在每一组试验中,随着样本数量逐渐增大,样本均值都会越来越收敛于随机变量的期望。
模拟大数定律的案例2
从大数定律的定义出发,先生成1000,000个服从均值0,标准差为20的正态分布的样本,依次进行3种不同的处理,并观察对应的3组分布。
import numpy as np from scipy.stats import norm import matplotlib.pyplot as plt norm_rvs = norm(loc=0, scale=20).rvs(size=) plt.hist(norm_rvs, density=True, alpha=0.5, bins=100, color='k', label='Original') mean_array = [] for i in range(10000): sample = np.random.choice(norm_rvs, size=5, replace=False) mean_array.append(sample.mean()) plt.hist(mean_array, density=True, alpha=0.5, bins=100, color='r', label='sample size = 5') for i in range(10000): sample = np.random.choice(norm_rvs, size=50, replace=False) mean_array.append(sample.mean()) plt.hist(mean_array, density=True, alpha=0.5, bins=100, color='g', label='sample size = 50') plt.gca().axes.set_xlim(-60, 60) plt.legend(loc='best') plt.grid(ls='--') plt.show()
结论
大数定律描述了随机变量序列的均值在概率意义下收敛于其数学期望的现象。通过概率不等式的推导,我们可以得到样本平均在概率1下收敛于总体均值的结论。在实际应用中,大数定律为统计学和概率论提供了重要的理论基础,也为估计总体参数提供了一种有效的方法。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/127918.html