大家好,欢迎来到IT知识分享网。
统计学基础——负二项分布的数字特征
一、引言
负二项分布(又名帕斯卡分布)和两点分布、二项分布、几何分布、超几何分布和泊松分布一样是常见的离散型分布。从定义上可以看成是几何分布的推广,从推导形式上也可以看成二项分布的推广。由于负二项分布的展开式不如二项分布那么常用,故在推导其期望方差等数字特征时,会碰到一些问题,本文展示了二项分布和其他分布的关系,并且给出了负二项分布的数字特征的推导过程,方便小伙伴理解,以减少想入门统计学的伙伴记忆负担。乔舰,范淑芬在文献[1]中具体列出了负二项分布的五种定义形式,以及多种求期望方差的方法。
黎明的清新在她的博客常见分布的数学期望、方差与特征函数推导(一)离散型分布一文中推导了常见的离散分布的数字特征。
二、负二项分布定义的引出与理解
2.1 实际意义
在实际的生活中,负二项分布可以应用到很多场景。一个人在获得r次满分前,没有获得满分的次数。一台机器在坏掉之前,可以使用的天数。可以看出负二项分布有总的次数失败两种定义方式。事实上,这两种定义方式本质等价,本文使用总的次数来定义负二项分布。
2.2 初始定义
这下面我们直接给出负二项分布的定义并解释负的含义。
定义一 X X X是服从负二项分布的随机变量,在一系列的独立的伯努利实验中,每次实验成功的概率是p,r是提前设定的成功实验次数。则 X X X的概率密度函数是:
P ( x = k ) = ( k − 1 r − 1 ) p r ( 1 − p ) k − r . (1) P(x=k)=\binom{k-1}{r-1}p^{r}(1-p)^{k-r}. \tag{1} P(x=k)=(r−1k−1)pr(1−p)k−r.(1) 其中 k k k从r取到无穷。此时 X X X~ N B ( r , p ) . NB(r,p). NB(r,p).
为了读者方便对比给出
定义二 Y Y Y是服从二项分布的随机变量,在一系列的独立的伯努利实验中,每次实验成功的概率是p,n是总的实验次数。则 Y Y Y的概率密度函数是:
P ( y = k ) = ( n k ) p k ( 1 − p ) n − k . P(y=k)=\binom{n}{k}p^{k}(1-p)^{n-k}. P(y=k)=(kn)pk(1−p)n−k. 其中 k k k从0取到n。此时 Y Y Y~ B ( n , p ) . B(n,p). B(n,p).
2.3 重新定义“负”二项分布
面对负二项分布的定义直观含义很好理解,但是对于为啥是负,很多初学的小伙伴显然很迷无从理解,下面我们对原始定义重新整理定义。
下面的公式推导来源于维基百科负二项分布词条,由于最近进不去那个网页,这里手动引用说明一下,不再注明链接。下面公式只能凭借印象自推,如有错误私信指正,不胜感激。
P ( x = k ) = ( k − 1 r − 1 ) p r ( 1 − p ) k − r = ( k − 1 ) ! ( r − 1 ) ! ( k − r ) ! p r ( 1 − p ) k − r = ( k − 1 ) ( k − 2 ) ⋯ ( k − 1 − ( k − 1 − r ) ) ( k − r ) ! p r ( 1 − p ) k − r = ( − 1 ) k − r ( − r ) ( − r + 1 ) ⋯ ( − k + 1 ) ( k − r ) ! p r ( 1 − p ) k − r = ( − 1 ) k − r ( − r k − r ) p r ( 1 − p ) k − r = ( − r k − r ) p r ( − 1 + p ) k − r \begin{aligned} P(x=k) &\left.=\binom{k-1}{r-1}p^{r}(1-p)^{k-r} \right. \\ &\left. = \frac{(k-1)!}{(r-1)!(k-r)!}p^{r}(1-p)^{k-r} \right. \\ &\left.=\frac{(k-1)(k-2)\cdots(k-1-(k-1-r))}{(k-r)!}p^{r}(1-p)^{k-r} \right.\\ &\left.=(-1)^{k-r}\frac{(-r)(-r+1)\cdots(-k+1)}{(k-r)!}p^{r}(1-p)^{k-r} \right.\\ &\left.=(-1)^{k-r}\binom{-r}{k-r}p^{r}(1-p)^{k-r} \right. \\ &\left.=\binom{-r}{k-r}p^{r}(-1+p)^{k-r} \right. \\ \end{aligned} P(x=k)=(r−1k−1)pr(1−p)k−r=(r−1)!(k−r)!(k−1)!pr(1−p)k−r=(k−r)!(k−1)(k−2)⋯(k−1−(k−1−r))pr(1−p)k−r=(−1)k−r(k−r)!(−r)(−r+1)⋯(−k+1)pr(1−p)k−r=(−1)k−r(k−r−r)pr(1−p)k−r=(k−r−r)pr(−1+p)k−r
定义三 Z Z Z是服从负二项分布的随机变量,在一系列的独立的伯努利实验中,每次实验成功的概率是p,r是提前设定的成功实验次数。则 X X X的概率密度函数是:
P ( z = k ) = ( − r k − r ) p r ( − 1 + p ) k − r P(z=k)=\binom{-r}{k-r}p^{r}(-1+p)^{k-r} P(z=k)=(k−r−r)pr(−1+p)k−r
其中 k k k从r取到无穷。此时 Z Z Z~ N B ( r , p ) . NB(r,p). NB(r,p).
推导出上述公式显然和二项分布定义比较相似。我们知道二项分布来源于二项展开式,那么我们可以把二项展开式推广到负整指数上么?想来是可以的。我们继续从二项展开式出发进行推导。
2.3 推导前的知识准备
定义三知识帮助大家了解负二项分布“负”的来源,我们接下来的推导使用定义一中的公式。我们知道公式(1)
作为概率密度函数,满足:
∑ k = r + ∞ P ( X = k ) = 1 (2) \sum_{k=r}^{+\infty~} P(X=k)=1 \tag{2} k=r∑+∞ P(X=k)=1(2)
将公式(1)
带代入公式(2)
变形的得到下面公式。
p − r = ∑ k = r + ∞ ( k − 1 r − 1 ) ( 1 − p ) k − r (3) p^{-r}=\sum_{k=r}^{+\infty~}\binom{k-1}{r-1}(1-p)^{k-r} \tag{3} p−r=k=r∑+∞ (r−1k−1)(1−p)k−r(3)
设 q = 1 − p q=1-p q=1−p,则:
( 1 − q ) − r = ∑ k = r + ∞ ( k − 1 r − 1 ) q k − r (1-q)^{-r}=\sum_{k=r}^{+\infty~}\binom{k-1}{r-1}q^{k-r} (1−q)−r=k=r∑+∞ (r−1k−1)qk−r
有了上述推导,我们给出广义的二项展开式的定义。
定理一 − 1 < x < 1 -1<x<1 −1<x<1,n是正整数,有如下形式:
( 1 − x ) − n = ∑ k = 0 + ∞ ( n k ) x k (1-x)^{-n}=\sum_{k=0}^{+\infty~}\binom{n}{k}x^{k} (1−x)−n=k=0∑+∞ (kn)xk
定理一的证明可以用数学归纳法比较简单,为节省篇幅读者自证。
三、数字特征推导
负二项分布的数字特征的求法主要分为两种:
1、拆分为几何分布。
2、定义直接求。
拆分法比较显然,这里不再赘述。下面用定义法去推导。
为了阅读方便这里把定义一随机变量 X X X的概率密度函数拿过来。
P ( X = k ) = ( k − 1 r − 1 ) p r ( 1 − p ) k − r . P(X=k)=\binom{k-1}{r-1}p^{r}(1-p)^{k-r}. P(X=k)=(r−1k−1)pr(1−p)k−r.
3.1 期望
E ( X ) = p r ∑ k = r + ∞ k ( k − 1 r − 1 ) ( 1 − p ) k − r = p r ∑ k = r + ∞ ( k − r ) ( k − 1 k − r ) ( 1 − p ) k − r + r ∑ k = r + ∞ P ( X = k ) = p r ∑ t = 0 + ∞ t ( t + r − 1 t ) ( 1 − p ) t + r ,(t=k-r) = p r ∑ t = 0 + ∞ t ( t + r − 1 r − 1 ) ( 1 − p ) t + r ,上一行的等价变形 = p r ∑ t = 1 + ∞ t ( t + r − 1 ) ! ( r − 1 ) ! t ! ( 1 − p ) t + r = r p r ∑ t = 1 + ∞ ( t + r − 1 ) ! r ! ( t − 1 ) ! ( 1 − p ) t + r = r p r ∑ k = 0 + ∞ ( k + r ) ! r ! k ! ( 1 − p ) k + 1 + r ,(k=t-1), 嘿嘿,字母不多来回用了 = r ( 1 − p ) p r p − r − 1 + r ,自行查看公式(3) = r p \begin{aligned} E(X) &\left.=p^{r}\sum_{k=r}^{+\infty~}k\binom{k-1}{r-1}(1-p)^{k-r} \right. \\ &\left.=p^{r}\sum_{k=r}^{+\infty~}(k-r)\binom{k-1}{k-r}(1-p)^{k-r}+r\sum_{k=r}^{+\infty~}P(X=k) \right. \\ &\left.=p^{r}\sum_{t=0}^{+\infty~}t\binom{t+r-1}{t}(1-p)^{t}+r \right.\text {,(t=k-r)} \\ &\left.=p^{r}\sum_{t=0}^{+\infty~}t\binom{t+r-1}{r-1}(1-p)^{t}+r \right.\text {,上一行的等价变形} \\ &\left.=p^{r}\sum_{t=1}^{+\infty~}t\frac{(t+r-1)!}{(r-1)!t!}(1-p)^{t}+r \right. \\ &\left.=rp^{r}\sum_{t=1}^{+\infty~}\frac{(t+r-1)!}{r!(t-1)!}(1-p)^{t}+r \right. \\ &\left.=rp^{r}\sum_{k=0}^{+\infty~}\frac{(k+r)!}{r!k!}(1-p)^{k+1}+r \right. \text {,(k=t-1), 嘿嘿,字母不多来回用了}\\ &\left.=r(1-p)p^{r}p^{-r-1}+r \right. \text {,自行查看公式(3)}\\ &\left.=\frac{r}{p} \right. \end{aligned} E(X)=prk=r∑+∞ k(r−1k−1)(1−p)k−r=prk=r∑+∞ (k−r)(k−rk−1)(1−p)k−r+rk=r∑+∞ P(X=k)=prt=0∑+∞ t(tt+r−1)(1−p)t+r,(t=k-r)=prt=0∑+∞ t(r−1t+r−1)(1−p)t+r,上一行的等价变形=prt=1∑+∞ t(r−1)!t!(t+r−1)!(1−p)t+r=rprt=1∑+∞ r!(t−1)!(t+r−1)!(1−p)t+r=rprk=0∑+∞ r!k!(k+r)!(1−p)k+1+r,(k=t-1), 嘿嘿,字母不多来回用了=r(1−p)prp−r−1+r,自行查看公式(3)=pr
3.2 方差
为了求得方差先求二阶原点距。
E ( X 2 ) = p r ∑ k = r + ∞ k 2 ( k − 1 r − 1 ) ( 1 − p ) k − r = r ( r + 1 ) ( 1 − p ) 2 + 2 p r 2 + r p ( 1 − p ) − r 2 p 2 p 2 ,方法和上述期望的求法一致(配方) = r ( 1 − p ) + r 2 p 2 \begin{aligned} E(X^{2}) &\left.=p^{r}\sum_{k=r}^{+\infty~}k^{2}\binom{k-1}{r-1}(1-p)^{k-r} \right. \\ &\left.= \frac{r(r+1)(1-p)^{2}+2pr^{2}+rp(1-p)-r^{2}p^{2}}{p^{2}} \right.\text {,方法和上述期望的求法一致(配方)} \\ &\left.= \frac{r(1-p)+r^2}{p^2} \right. \\ \end{aligned} E(X2)=prk=r∑+∞ k2(r−1k−1)(1−p)k−r=p2r(r+1)(1−p)2+2pr2+rp(1−p)−r2p2,方法和上述期望的求法一致(配方)=p2r(1−p)+r2
D ( X ) = E ( X 2 ) − ( E ( X ) ) 2 = r ( 1 − p ) p 2 \begin{aligned} D(X) &\left.=E(X^2)-(E(X))^2 \right. \\ &\left.= \frac{r(1-p)}{p^2} \right. \\ \end{aligned} D(X)=E(X2)−(E(X))2=p2r(1−p)
四、R语言中的负二项分布
在R语言中也有相应函数可用于负二项分布,本文介绍四个分别是:
4.1函数表格
函数 | 含义 |
---|---|
dnbinom | 输入次数、规模、概率 返回发生x次失败事件的概率 |
pnbinom | 返回输入参数的累积概率 |
qnbinom | 返回对应的分位点 |
rnbinom | 返回每组发生失败事件的次数 |
下面贴出函数的具体入口参数。详细例子请参照函数例子。
?dnbinom
4.2 函数参数展示
dnbinom
function (x, size, prob, mu, log = FALSE) { if (!missing(mu)) { if (!missing(prob)) stop("'prob' and 'mu' both specified") .Call(C_dnbinom_mu, x, size, mu, log) } else .Call(C_dnbinom, x, size, prob, log) }
pnbinom
function (q, size, prob, mu, lower.tail = TRUE, log.p = FALSE) { if (!missing(mu)) { if (!missing(prob)) stop("'prob' and 'mu' both specified") .Call(C_pnbinom_mu, q, size, mu, lower.tail, log.p) } else .Call(C_pnbinom, q, size, prob, lower.tail, log.p) }
qnbinom
function (p, size, prob, mu, lower.tail = TRUE, log.p = FALSE) { if (!missing(mu)) { if (!missing(prob)) stop("'prob' and 'mu' both specified") .Call(C_qnbinom_mu, p, size, mu, lower.tail, log.p) } else .Call(C_qnbinom, p, size, prob, lower.tail, log.p) }
rnbinom
function (n, size, prob, mu) { if (!missing(mu)) { if (!missing(prob)) stop("'prob' and 'mu' both specified") .Call(C_rnbinom_mu, n, size, mu) } else .Call(C_rnbinom, n, size, prob) }
参考文献
[1]乔舰,范淑芬.负二项分布随机变量数字特征的求解[J].高等数学研究,2017,20(02):32-34.
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/158211.html