最大熵模型|机器学习方法（李航）

大家好，欢迎来到IT知识分享网。

最大熵模型简介

学习概率模型时，在所有可能的概率模型（即概率分布）中，熵最大的模型是最好的模型。

通常还有其他已知条件来确定概率模型的集合，因此最大熵原理为：在满足已知条件的情况下，选取熵最大的模型。
在满足已知条件前提下，如果没有更多的信息，则那些不确定部分都是“等可能的”。而等可能性 通过熵最大化来刻画。

最大熵原理选取熵最大的模型，而决策树的划分目标选取熵最小的划分。原因在于：

最大熵原理认为在满足已知条件之后，选择不确定性最大（即：不确定的部分是等可能的）的模型。也就是不应该再施加任何额外的约束。因此这是一个求最大不确定性的过程，所以选择熵最大的模型。
决策树的划分目标是为了通过不断的划分从而不断的降低实例所属的类的不确定性，最终给实例一个合适的分类。因此这是一个不确定性不断减小的过程，所以选取熵最小的划分。

信息熵

事件的概率越小则事件的不确定性就高，即信息量越高。因此信息量函数 $f$ 关于概率 $P$ 是减函数；两个独立事件所产生的信息量应等于各自的信息量之和，即
$f(P_1,P_2)=f(P_1)+F(p_2)$
同时满足这两个条件的函数 $f$ 是对数函数 $l o g$ ，即
$f(P)=log\frac{1}{p}=-log(P)$
信息熵则为信息量的期望：
$H(P)=\sum[-log(P)]=H(P)=-\sum_X P(C)logP(X)$
可以证明： $0\leq H(P) \leq log|X|$ ，其中 $∣ X ∣$ 为 $X$ 的取值的个数。

当且仅当 $X$ 的分布为均匀分布时有 $H (P) = l o g ∣ X ∣$ 。即 $P(X)=\frac{1}{|X|}$ 时熵最大。

最大熵模型的定义

用最大熵原理选择最好的分类模型。

上式即为一个约束条件，假如有n个特征函数 $f_i(x,y)，i=1,2,…,n$ ，那么就有n个约束条件。除此之外还有一个必定存在的约束，即模型概率之和等于1： $\sum_yP(y|x)=1$ 。

现在我们有了所有的约束条件，接着写出模型的熵的公式，就可以根据最大熵规则，在约束条件下得到模型。

定义在条件概率分布 $P (Y ∣ X)$ 上的条件熵为：
$\begin{aligned} H(P(Y|X))&=\sum_xP(x)H(y|x) \\ &=\sum_xP(x)\sum_y-P(y|x)logP(y|x) \\ &=-\sum_{x,y}P(x)P(y|x)logP(y|x) \\ &=-\sum_{x,y}\tilde{P}(x)P(y|x)log\tilde{P}(y|x) \end{aligned}$
条件熵中依然使用了x的经验分布代替真实分布，式中的对数为自然对数（以e为底）。那么求解模型的问题转换为求得最大化的条件熵问题。

最大熵模型的学习

最大熵模型的学习过程就是求解最大熵模型的过程。最大熵模型的学习可以形式化为约束最优化问题。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/134830.html

最大熵模型|机器学习方法（李航）

最大熵模型简介

信息熵

最大熵模型的定义

最大熵模型的学习

相关推荐

发表回复