如何通俗的理解最大似然估计法

如何通俗的理解最大似然估计法最大似然估计就是 利用已知的样本结果 反推最有可能导致这样结果的参数值

大家好,欢迎来到IT知识分享网。

θ 值 \theta值 θ 概率
0.4 0.00002
0.5 0.01084
0.6 0.08122
0.7 0.00849

抛硬币事件是独立同分布的,我们设参数为 θ \theta θ,似然函数可以写做:
L ( θ ) = θ 60 ( 1 − θ ) 40 (1) L(\theta)=\theta^{60}(1-\theta)^{40} \tag{1} L(θ)=θ60(1θ)40(1)

  我们要做的就是找到一个参数,使得发生该事件的概率最大,即 L ( θ ) L(\theta) L(θ)取得最大值。所以求最大似然估计问题,就变成了求似然函数的极值。已知对数函数是单调的,为了简化连乘运算,可以对似然函数取对数,得:
ln ⁡ L ( θ ) = ln ⁡ θ 60 + ln ⁡ ( 1 − θ ) 40 = 60 ln ⁡ θ + 40 ln ⁡ ( 1 − θ ) (2) \begin{aligned} \ln L(\theta) &= \ln \theta^{60} + \ln (1-\theta)^{40}\\ &= 60 \ln \theta + 40 \ln (1-\theta) \end{aligned} \tag{2} lnL(θ)=lnθ60+ln(1θ)40=60lnθ+40ln(1θ)(2)

  因此,解得参数 θ \theta θ为0.6。下图为该似然函数的几何图形,从图中也可以看出,当 θ \theta θ=0.6时,似然函数的取值最大。
在这里插入图片描述

最大似然估计原理

  联合概率密度函数 p ( D ∣ θ ) p(D|\theta) p(Dθ)称为相对于 { x 1 , x 2 , … , x n } \{x_1,x_2,\ldots,x_n\} {
x1,x2,,xn}
θ \theta θ的似然函数:
L ( θ ) = p ( D ∣ θ ) = p ( x 1 , x 2 , … , x N ∣ θ ) = ∏ i = 1 N p ( x i ∣ θ ) (5) L(\theta)=p(D|\theta)=p(x_1,x_2,\ldots,x_N| \theta)=\prod_{i=1}^{N}p(x_i|\theta)\tag{5} L(θ)=p(Dθ)=p(x1,x2,,xNθ)=i=1Np(xiθ)(5)

  这是一个关于 θ \theta θ的函数,求解这个优化问题通常对 θ \theta θ求导,得到导数为0的极值点。该函数取得最大值时, θ \theta θ的取值就是我们估计的模型参数。
  所以,极大似然估计就是,利用已知的样本结果,反推最有可能导致这样结果的参数值。

最大似然估计举例

例 1  假定样本服从均匀分布[a,b]。则X的概率密度函数为
P ( x ∣ a , b ) = { 1 b − a , a ≤ x ≤ b 0 , 其它 (8) P(x|a,b)= \begin{cases} \frac{1}{b-a}&,a \leq x \leq b \\ 0&, 其它 \end{cases}\tag{8} P(xa,b)={
ba10,axb,其它
(8)

    对样本 D = { x 1 , x 2 , … , x n } D=\{x_1,x_2,\ldots,x_n\} D={
x1,x2,,xn}
,参数 θ = ⟨ a , b ⟩ \theta=\langle a,b \rangle θ=a,b,则似然函数为:
L ( a , b ) = { 1 ( b − a ) n , a ≤ x i ≤ b , i = 1 , 2 , … , n 0 , 其它 (9) L(a,b)= \begin{cases} \frac{1}{(b-a)^n}&,a \leq x_i \leq b ,i=1,2,\ldots,n\\ 0&, 其它 \end{cases}\tag{9} L(a,b)={
(ba)n10,axib,i=1,2,,n,其它
(9)

    很显然, L ( a , b ) L(a,b) L(a,b)作为a和b的二元函数是不连续的,不能使用导数来求解。必须从最大似然估计的定义出发,求 L ( a , b ) L(a,b) L(a,b)的最大值。为使 L ( a , b ) L(a,b) L(a,b)达到最大,b – a应该尽可能的小,而样本X在区间[a,b]内,所以b不能小于 max ⁡ { x 1 , x 2 , … , x n } \max\{x_1,x_2,\ldots,x_n\} max{
x1,x2,,xn}
,同理,a不能大于 min ⁡ { x 1 , x 2 , … , x n } \min \{x_1,x_2,\ldots,x_n\} min{
x1,x2,,xn}
。因此,a和b的最大似然估计为:
a ∗ = min ⁡ { x 1 , x 2 , … , x n } b ∗ = max ⁡ { x 1 , x 2 , … , x n } (10) a^*=\min \{x_1,x_2,\ldots,x_n\}\\ b^*=\max \{x_1,x_2,\ldots,x_n\} \tag{10} a=min{
x1,x2,,xn}
b=max{
x1,x2,,xn}
(10)

例 2 假定X是一个可以在实轴上取值的连续变量。样本服从高斯分布,X的一个高斯模型是 P ( x ∣ μ , σ ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 (11) P(x|\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\tag{11} P(xμ,σ)=2π
σ
1
e2σ2(xμ)2
(11)

  其中 θ = ⟨ μ , σ ⟩ \theta=\langle\mu,\sigma\rangle θ=μ,σ。这个模型的参数空间是 Θ = R × R + \Theta=R\times R^+ Θ=R×R+,即允许 μ \mu μ的取值为任意的实数,允许 σ \sigma σ的取值范围为任意的正实数。
  似然函数为:
L ( μ , σ 2 ) = ∏ i = 1 N 1 2 π σ e − ( x i − μ ) 2 2 σ 2 = ( 2 π σ 2 ) − n 2 e − 1 2 σ 2 ∑ i = 1 N ( x i − μ ) 2 (12) L(\mu,\sigma^2)=\prod_{i=1}^N\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}=(2\pi\sigma^2)^{-\frac{n}{2}}e^{-\frac{1}{2\sigma^2}\sum\limits_{i=1}^{N}(x_i-\mu)^2}\tag{12} L(μ,σ2)=i=1N2π
σ
1
e2σ2(xiμ)2=
(2πσ2)2ne2σ21i=1N(xiμ)2(12)


总结

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/131618.html

(0)
上一篇 2025-08-06 18:26
下一篇 2025-08-06 18:33

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信