大家好,欢迎来到IT知识分享网。
1. 基本概念
回归(Regression)是分析变量之间相互关系的一种方法。
“回归”一词最早是由英国科学家弗朗西斯·高尔顿(Francis Galton,1822-1911)提出的,高尔顿在实验中注意到,无论是豌豆种子的尺寸,还是人类的身高,都存在一种向均值进行回归的现象。后来,尽管回归这个词语本身和数值预测没有任何关系,但这种研究方法还是被称作回归。
回归研究的变量有两类:
- 自变量:通过大量试验或观测获得的数据,用
表示。
- 因变量:实际问题中所关心的结果指标,用
表示。
回归分析的过程:
(1)确定 

(2)对求得的回归方程的可信度进行检验。
(3)判断自变量 

(4)利用所求得的回归方程进行预测。
2. 一元线性回归
一元线性回归只考虑一个因变量 

2.1 数学模型
假设有一组数据 

以 



我们会发现,数据点在一条直线的附近,于是我们可以假设 

即假设:
上式中,




- 称函数
为一元线性回归函数
- 称
为回归常数,
为回归系数,统称回归参数
- 称
为回归自变量(或回归因子)
- 称
为回归因变量(或响应变量)
若 



其中 


2.2 回归参数的估计
求解思路:求出未知参数 




使用方法:最小二乘法。
令
函数用来描述真实值和预测值之间的差距。
- 通过使误差平方和达到最小的方式来寻求估计值的方法,叫做最小二乘法。
- 用最小二乘法得到的估计,叫做最小二乘估计。


其中

2.3 模型拟合优度
拟合优度检验是对回归模型拟合效果的检验。
回归平方和:
残差平方和:
总平方和:
可决系数:
可决系数是评价回归模型拟合程度的重要指标,它表示了模型的总离差中可解释部分所占的比例。可决系数介于0和1之间,值越高,模型拟合效果越好。一般认为超过0.8的模型拟合优度比较高。
3、线性相关系数
在回归参数的估计公式中,我们假设了 

线性相关系数是用于衡量两个随机变量之间线性相关程度的指标。
总体的线性相关系数:
样本的线性相关系数:
















注意:相关性不等同于因果性。
4、多元线性回归分析
4.1 数学模型
设变量 

其中,


称上述模型为多元线性回归模型。
设 



则多元线性模型可表示为 

其中 
为书写方便,常采用矩阵形式,令



则多元线性模型可表示为
其中 








4.2 回归系数的估计
求参数 



计算可得:
4.3 模型拟合优度
一元线性回归模型的可决系数在计算时,自变量数目越多,残差平方和越小,拟合优度就会越高。这导致了:要想使得模型拟合得好,只要增加解释变量的数目即可。
这样做的结果会拓宽点估计或均值估计的置信区间,从而增大预测或估计的误差。
为此,应修正可决系数的算法,剔除解释变量数目变动对 
修正可决系数算法的思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响。
因此,多元线性回归模型在衡量模型的拟合优度时,采用修正的可决系数进行评判:
其中,




免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/117695.html


