大家好,欢迎来到IT知识分享网。
θ 值 \theta值 θ值 | 概率 |
---|---|
0.4 | 0.00002 |
0.5 | 0.01084 |
0.6 | 0.08122 |
0.7 | 0.00849 |
抛硬币事件是独立同分布的,我们设参数为 θ \theta θ,似然函数可以写做:
L ( θ ) = θ 60 ( 1 − θ ) 40 (1) L(\theta)=\theta^{60}(1-\theta)^{40} \tag{1} L(θ)=θ60(1−θ)40(1)
我们要做的就是找到一个参数,使得发生该事件的概率最大,即 L ( θ ) L(\theta) L(θ)取得最大值。所以求最大似然估计问题,就变成了求似然函数的极值。已知对数函数是单调的,为了简化连乘运算,可以对似然函数取对数,得:
ln L ( θ ) = ln θ 60 + ln ( 1 − θ ) 40 = 60 ln θ + 40 ln ( 1 − θ ) (2) \begin{aligned} \ln L(\theta) &= \ln \theta^{60} + \ln (1-\theta)^{40}\\ &= 60 \ln \theta + 40 \ln (1-\theta) \end{aligned} \tag{2} lnL(θ)=lnθ60+ln(1−θ)40=60lnθ+40ln(1−θ)(2)
因此,解得参数 θ \theta θ为0.6。下图为该似然函数的几何图形,从图中也可以看出,当 θ \theta θ=0.6时,似然函数的取值最大。
最大似然估计原理
联合概率密度函数 p ( D ∣ θ ) p(D|\theta) p(D∣θ)称为相对于 { x 1 , x 2 , … , x n } \{x_1,x_2,\ldots,x_n\} {
x1,x2,…,xn}的 θ \theta θ的似然函数:
L ( θ ) = p ( D ∣ θ ) = p ( x 1 , x 2 , … , x N ∣ θ ) = ∏ i = 1 N p ( x i ∣ θ ) (5) L(\theta)=p(D|\theta)=p(x_1,x_2,\ldots,x_N| \theta)=\prod_{i=1}^{N}p(x_i|\theta)\tag{5} L(θ)=p(D∣θ)=p(x1,x2,…,xN∣θ)=i=1∏Np(xi∣θ)(5)
这是一个关于 θ \theta θ的函数,求解这个优化问题通常对 θ \theta θ求导,得到导数为0的极值点。该函数取得最大值时, θ \theta θ的取值就是我们估计的模型参数。
所以,极大似然估计就是,利用已知的样本结果,反推最有可能导致这样结果的参数值。
最大似然估计举例
例 1 假定样本服从均匀分布[a,b]。则X的概率密度函数为
P ( x ∣ a , b ) = { 1 b − a , a ≤ x ≤ b 0 , 其它 (8) P(x|a,b)= \begin{cases} \frac{1}{b-a}&,a \leq x \leq b \\ 0&, 其它 \end{cases}\tag{8} P(x∣a,b)={
b−a10,a≤x≤b,其它(8)
对样本 D = { x 1 , x 2 , … , x n } D=\{x_1,x_2,\ldots,x_n\} D={
x1,x2,…,xn},参数 θ = ⟨ a , b ⟩ \theta=\langle a,b \rangle θ=⟨a,b⟩,则似然函数为:
L ( a , b ) = { 1 ( b − a ) n , a ≤ x i ≤ b , i = 1 , 2 , … , n 0 , 其它 (9) L(a,b)= \begin{cases} \frac{1}{(b-a)^n}&,a \leq x_i \leq b ,i=1,2,\ldots,n\\ 0&, 其它 \end{cases}\tag{9} L(a,b)={
(b−a)n10,a≤xi≤b,i=1,2,…,n,其它(9)
很显然, L ( a , b ) L(a,b) L(a,b)作为a和b的二元函数是不连续的,不能使用导数来求解。必须从最大似然估计的定义出发,求 L ( a , b ) L(a,b) L(a,b)的最大值。为使 L ( a , b ) L(a,b) L(a,b)达到最大,b – a应该尽可能的小,而样本X在区间[a,b]内,所以b不能小于 max { x 1 , x 2 , … , x n } \max\{x_1,x_2,\ldots,x_n\} max{
x1,x2,…,xn},同理,a不能大于 min { x 1 , x 2 , … , x n } \min \{x_1,x_2,\ldots,x_n\} min{
x1,x2,…,xn}。因此,a和b的最大似然估计为:
a ∗ = min { x 1 , x 2 , … , x n } b ∗ = max { x 1 , x 2 , … , x n } (10) a^*=\min \{x_1,x_2,\ldots,x_n\}\\ b^*=\max \{x_1,x_2,\ldots,x_n\} \tag{10} a∗=min{
x1,x2,…,xn}b∗=max{
x1,x2,…,xn}(10)
例 2 假定X是一个可以在实轴上取值的连续变量。样本服从高斯分布,X的一个高斯模型是 P ( x ∣ μ , σ ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 (11) P(x|\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\tag{11} P(x∣μ,σ)=2πσ1e−2σ2(x−μ)2(11)
其中 θ = ⟨ μ , σ ⟩ \theta=\langle\mu,\sigma\rangle θ=⟨μ,σ⟩。这个模型的参数空间是 Θ = R × R + \Theta=R\times R^+ Θ=R×R+,即允许 μ \mu μ的取值为任意的实数,允许 σ \sigma σ的取值范围为任意的正实数。
似然函数为:
L ( μ , σ 2 ) = ∏ i = 1 N 1 2 π σ e − ( x i − μ ) 2 2 σ 2 = ( 2 π σ 2 ) − n 2 e − 1 2 σ 2 ∑ i = 1 N ( x i − μ ) 2 (12) L(\mu,\sigma^2)=\prod_{i=1}^N\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}=(2\pi\sigma^2)^{-\frac{n}{2}}e^{-\frac{1}{2\sigma^2}\sum\limits_{i=1}^{N}(x_i-\mu)^2}\tag{12} L(μ,σ2)=i=1∏N2πσ1e−2σ2(xi−μ)2=(2πσ2)−2ne−2σ21i=1∑N(xi−μ)2(12)
总结
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/131618.html