信息量、信息熵、信息增益的理解

信息量、信息熵、信息增益的理解1 信息量公式由来当我们知道一件必然会发生的事情发生了 因为反正这件事情会发生 因此可以认为我们没有接收到信息

大家好,欢迎来到IT知识分享网。

一、信息量

1. 一些概念的理解

首先我们需要将概率、不确定性和信息量这三个概念给串起来。

①一个 事件发生的不确定性与该事件发生的概率有关系。当一个事件发生的概率越高,事件越有可能发生,事件发生的不确定性就越小,反之,概率越低,事件发生的困难程度就越高,事件发生的不确定性也就越高。(概率为1的事件发生的不确定性是0,概率为0的事件发生的不确定性则趋于无穷)
②当信源(产生消息的来源)中某一消息(事件)发生的不确定性越高,一旦它发生,并且被收信者接受,消除的不确定性也就越大,获得的信息也就越多。如果收信者接受到被干扰的消息,对一个消息(事件)发生的不确定性几乎没有消除,则收信者接受到的信息也就微乎其微。因此,获得信息量的大小与不确定性消除的大小有关,我们直观地将信息量定义为
    接受到了某消息(事件发生)所获得的信息量
    =不确定性减少量
    =(收到此消息前关于某事件发生的不确定性)-(收到此消息后关于某事件发生的不确定性)



ps:由于我们是要用概率空间来描述信源,用随机变量来描述信源输出的消息,因此这需要信源可能发出的各种消息(事件)的概率先验可知

上面几段话的总结:一个事件发生的概率越小,不确定性越大,(因为事件发生了,并且被接收了,事件发生所消除的不确定性就越大了),事件发生所带来的信息量也就越大。(可以看出来信息量与概率成负相关了)

2. 用概率表示信息量

I(x) >= 0,因为h(x)表示的是得到的信息量的多少,应该是个非负数。
I(x,y) = I(x) + I(y)。假设有两个不相关的事件 x 和 y,那么这两个事件同时发生时获得的信息量应该等于观察到的事件各自发生时获得的信息之和。又因为 x,y 是两个不相关的事件,那么满足 p(x,y) = p(x)*p(y)。由这点可以知道I(x)与p(x)的对数有关系。
基于要满足上述性质,我们就可以得到
在这里插入图片描述


I(x)可以代表两种含义(也就是1部分总结的那句话)
①事件x发生之前,x事件发生的不确定性的大小
②事件x发生后,x事件含有(或所带来)的信息量

二、信息熵

1. 信息熵的计算方法

2. 信息熵的最大值、最小值

信息熵的最大值


三、信息增益(Information Gain)

1. 定义

定义:用某特征划分数据集前后的熵的差值
即信息增益=划分前的信息熵-划分后的信息熵

因为熵可以衡量一个样本集合的不确定性,熵越大,样本不确定性越大,纯度就越低(在决策树中如果分支节点包含的样本尽可能属于同一类别,我们就说纯度越来越高))。故可使用划分前后的样本集合的熵的差值来衡量使用该特征对样本集合的分类效果。
差值(信息增益)越大时,表示使用该特征划分数据集时纯度上升越快,使用该特征划分之后的分支结点就越有可能属于同一类别。而我们在构建决策树时也希望能更快速到达纯度更高的集合,因此可以根据信息增益来划分属性,ID3决策树即是用这种方法实现。

举个例子理解一下信息增益:

2. 信息增益的计算

在这里插入图片描述


后记




免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/128844.html

(0)
上一篇 2025-08-28 18:45
下一篇 2025-08-28 19:00

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信