大家好,欢迎来到IT知识分享网。
引言
偏差方差分析是机器学习中常用的来衡量模型对数据拟合好坏的度量方式,PRML中对这一个问题进行了数学理论上的分析。
最理想回归函数
对于回归问题的朴素方式是对输入的每一个样本 x ,输出对真实回归值
t
例如假设选择的是平方损失函数
则
y(x)−t}2p(x,t)dxdt
我们的目标是选择
y(x)
来最小化
E(L)
,则根据变分法发有:
y(x)−t}p(x,t)dxdt=0
求解
y(x)
有:
,同样我们可以损失函数写成:
y(x)−t}2={
y(x)−E[t|x]+E[t|x]−t}2
y(x)−E[t|x]}2+{
E[t|x]−t}2+2{
y−E[t|x]}{
E[t|x]−t}
带入损失函数中,对
t
进行积分得:
E[L]=∫{y(x)−E[t|x]}2p(x)dx+∫var[t|x]p(x)dx
var表示方差
,由于我们要求的
y(x)
之和第一项有关,要得损失函数最小则只需要:
在对最理想的回归函数分析时,借助后验期望(均值),从而把损失函数分解成为回归函数与期望的偏差,以及噪音造成的偏差。
方差偏差
考虑不同的损失函数,一旦知道了 p(t|x) ,每一种损失函数都能够给出最好的预测结果,如果考虑平均损失,此时最优预测由条件期望个给出:
由上面的分析可知,损失期望可写成
y(x)−E[t|x]}2p(x)dx+∫var[t|x]p(x)dx
var[t|x]={
t−E[t|x]}2
,因此可写成:
y(x)−h(x)}2p(x)dx+∫∫{
h(x)−t}2p(x,t)dxdt
把后面一项看成是噪音引起产生的,则我们关于预测函数和损失之间的关系只和前面一项有关,给定一个特定数据集
D
,对第一项进行改写:
{y(x;D)−h(x)}2={y(x;D)−ED[y(x;D)]+ED[y(x;D)]−h(x)}2
展开,并对D求期望得:
y(x;D)−h(x)}2]={
ED[y(x;D)]−h(x)}2+ED[{
y(x;D)−ED[y(x;D)}2]
第一项叫做偏差,衡量的是所有数据平均预测值和预期回归值之间的差异。第二项就是偏差,衡量的是预测值在预测平均值附近的波动情况,也可以看作
y(x;D)
对数据集的敏感程度。从而就有:
其中
ED[y(x;D)]−h(x)}2p(x)dx
y(x;D)−ED[y(x;D)}p(x)dx2
h(x)−t}2p(x,t)dxdt
偏差方差分析
⽬标是最⼩化期望损失,它可以分解为(平⽅)偏置、⽅差和⼀个常数噪声项和,正如看到的那样,在偏置和⽅差之间有⼀个折中。对于⾮常灵活的模型来说,偏置较⼩,⽅差较⼤。对于相对固定的模型来说,偏置较⼤,⽅差较⼩。最好的模型应该是在偏差和方差之间有一个最好的平衡。
例子
总结
偏置-⽅差分解能够从频率学家的⾓度对模型的复杂度提供⼀些有趣的认识,但是它的实⽤价值很有限。这是因为偏置-⽅差分解依赖于对所有的数据集求平均,⽽在实际应⽤中我们只有⼀个观测数据集。如果我们有⼤量的已知规模的独⽴的训练数据集,那么我们最好的⽅法是把它们组合成⼀个⼤的训练集,这显然会降低给定复杂度的模型的过拟合程度。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/132798.html