回归算法基础知识

回归算法基础知识本文介绍回归算法的一些基础知识

大家好,欢迎来到IT知识分享网。

1. 基本概念

回归(Regression)是分析变量之间相互关系的一种方法。

“回归”一词最早是由英国科学家弗朗西斯·高尔顿(Francis Galton,1822-1911)提出的,高尔顿在实验中注意到,无论是豌豆种子的尺寸,还是人类的身高,都存在一种向均值进行回归的现象。后来,尽管回归这个词语本身和数值预测没有任何关系,但这种研究方法还是被称作回归。

回归研究的变量有两类:

  • 自变量:通过大量试验或观测获得的数据,用 \small X_{1},X_{2},...,X_{p}  表示。
  • 因变量:实际问题中所关心的结果指标,用  \small Y 表示。

回归分析的过程:

(1)确定 \small Y 与 \small X_{1},X_{2},...,X_{p} 间的定量关系表达式,即回归方程。  

(2)对求得的回归方程的可信度进行检验。

(3)判断自变量 \small X_{1},X_{2},...,X_{p} 对 \small Y 有无影响。 

(4)利用所求得的回归方程进行预测。


2. 一元线性回归

一元线性回归只考虑一个因变量 \small Y 与一个自变量 \small X 之间的关系。

2.1 数学模型

假设有一组数据 (x_{i},y_{i})i=1,2,...,n

X 为横坐标, Y 为纵坐标,将数据对 (x_{i},y_{i}) 在 X-Y 坐标中画出散点图。

回归算法基础知识

我们会发现,数据点在一条直线的附近,于是我们可以假设 Y 与 X 是线性关系,这些点与直线的偏离由一些不确定因素造成。

回归算法基础知识

即假设:Y=\theta _{0}+\theta _{1}X+\varepsilon

上式中,\theta _{0}+\theta _{1}X 表示 Y 随 X 的变化而线性变化的部分; \varepsilon 是随机误差,是其他一切不确定因素影响的总和,其值不可观测,通常假定 \varepsilon\sim N(0,\sigma ^{2} )

  • 称函数 f(X)=\theta _{0}+\theta _{1}X 为一元线性回归函数
  • \theta _{0} 为回归常数\theta _{1} 为回归系数,统称回归参数
  • 称 X回归自变量(或回归因子)
  • Y 为回归因变量(或响应变量)

(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n}) 是 (X,Y) 的一组观测值,则一元线性回归模型可表示为:

y_{i}=\theta_{0}+\theta_{1}x_{i}+\varepsilon _{i} , i=1,2,...,n    

 其中 E(\varepsilon _{i})=0Var(\varepsilon _{i})=\sigma^{2}i=1,2,...,n

2.2 回归参数的估计

求解思路:求出未知参数 \theta_{0},\theta_{1} 的估计  \hat{\theta}_{0},\hat{\theta}_{1} 的一种直观想法,是使得点 (x_{i},y_{i}) 与直线上的点 (x_{i},\hat{y}_{i}) 的偏离越小越好。这里的 \hat{y}_{i}=\hat{\theta}_{0}+\hat{\theta}_{1}x_{i},称为回归值拟合值

使用方法最小二乘法

  J(\theta_{0},\theta_{1})=\sum_{i=1}^{n}(y_{i}-(\theta_{0}+\theta_{1}x_{i}))^2

函数用来描述真实值和预测值之间的差距。

  • 通过使误差平方和达到最小的方式来寻求估计值的方法,叫做最小二乘法
  • 用最小二乘法得到的估计,叫做最小二乘估计

J(\theta_{0},\theta_{1}) 是凸函数,令其求导并等于零可得极值。计算可得

\hat\theta_{1}=\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\sum_{i=1}^{n}(x_{i}-\bar{x})^2},     \hat\theta_{0}=\bar{y}-\hat\theta_{1}\bar{x}

    其中

\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}   ,   \bar{y}=\frac{1}{n}\sum_{i=1}^{n}y_{i}

2.3 模型拟合优度

拟合优度检验是对回归模型拟合效果的检验。

回归平方和:

   SSR=\sum_{i=1}^{n}(\hat{y_{i}}-\bar{y})^{2}

残差平方和:

  SSE=\sum_{i=1}^{n}(\hat{y_{i}}-y)^{2}

总平方和:

 SST=SSR+SSE=\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}

可决系数:

 R^{2}=\frac{SSR}{SST}

可决系数是评价回归模型拟合程度的重要指标,它表示了模型的总离差中可解释部分所占的比例。可决系数介于0和1之间,值越高,模型拟合效果越好。一般认为超过0.8的模型拟合优度比较高。


3、线性相关系数

在回归参数的估计公式中,我们假设了 Y 与 X 是存在线性相关的关系的,但如果不存在这种关系,那么求得的回归方程毫无意义。

线性相关系数是用于衡量两个随机变量之间线性相关程度的指标

总体的线性相关系数:

\rho_{X,Y}=corr(X,Y)=\frac{cov(X,Y)}{\sigma_{X}\sigma_{Y}}=\frac{E[(X-\mu_{X})(Y-\mu_{Y})]}{\sigma_{X}\sigma_{Y}}

样本的线性相关系数:

r_{x,y}=\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\sqrt{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}}

\rho _{XY} 取值在-1到1之间。

\rho _{XY}=0 时,称XY不相关

|\rho _{XY}|=1 时,称XY完全相关,此时,XY之间具有线性关系

|\rho _{XY}|<1 时,X 的变动引起 Y 的部分变动。\rho _{XY} 的绝对值越大,X 的变动引起 Y 的变动就越大。一般情况下,回归算法基础知识0.8″> 时称为高度线性相关

回归算法基础知识

 注意:相关性不等同于因果性。


4、多元线性回归分析

4.1 数学模型

设变量 Y 与变量 X_{1},X_{2},...,X_{p} 间有线性关系

Y=\theta_{0}+\theta_{1}X_{1}+...+\theta_{p}X_{p}+\varepsilon

其中,\varepsilon \sim N(0,\sigma^{2})\theta_{0},\theta_{1},...,\theta_{p} 和 \sigma^{2} 是未知参数,p\geqslant 2

称上述模型为多元线性回归模型

(x_{i1},x_{i2},...,x_{ip},y_{i}), i=1,2,...,n(X_{1},X_{2},...,X_{p},Y)的 n 次独立观测值。

则多元线性模型可表示为 y_{i}=\theta_{0}+\theta_{1}x_{i1}+...+\theta_{p}x_{ip}+\varepsilon_{i}i=1,2,...,n

其中 \varepsilon \sim N(0,\sigma^{2}) ,且独立同分布。

为书写方便,常采用矩阵形式,令

Y=\begin{bmatrix}y_{1} \\ y_{2} \\ \vdots \\y_{n} \end{bmatrix}\theta=\begin{bmatrix}\theta_{1} \\ \theta_{2} \\ \vdots \\\theta_{n} \end{bmatrix}X=\begin{bmatrix} 1 & x_{11} & x_{12} & \cdots & x_{1p} \\ 1 & x_{21} & x_{22} & \cdots &x_{2p} \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & x_{n1} &x_{n2} & \cdots& x_{np} \end{bmatrix}\varepsilon =\begin{bmatrix}\varepsilon _{1} \\ \varepsilon _{2} \\ \vdots \\\varepsilon _{n} \end{bmatrix}

则多元线性模型可表示为

Y=X\theta+\varepsilon

其中 Y 是由响应变量构成的 n 维向量,Xn\times (p+1) 阶设计矩阵, \theta 是 p+1 维向量, \varepsilon 是 n 维向量,且满足 E(\varepsilon )=0,Var(\varepsilon)=\sigma^{2}I_{n}

4.2 回归系数的估计

求参数 \theta 的估计值 \hat\theta,就是求最小二乘函数 J(\theta)=(y-X\theta)^{T}(y-X\theta) 达到最小的 \theta 值。

计算可得:

\hat\theta=(X^{T}X)^{-1}X^{T}y

\hat{Y}=\hat\theta_{0}+\hat\theta_{1}X_{1}+...+\hat\theta_{p}X_{p}

4.3 模型拟合优度

一元线性回归模型的可决系数在计算时,自变量数目越多,残差平方和越小,拟合优度就会越高。这导致了:要想使得模型拟合得好,只要增加解释变量的数目即可。

这样做的结果会拓宽点估计或均值估计的置信区间,从而增大预测或估计的误差。

为此,应修正可决系数的算法,剔除解释变量数目变动对 R^{2} 的影响。

修正可决系数算法的思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响。

因此,多元线性回归模型在衡量模型的拟合优度时,采用修正的可决系数进行评判:

\bar{R}^{2}=1-\frac{n-1}{n-p}(1-R^{2})

其中,p 为自变量个数,n 为样本数据的个数。

R^{2}=\frac{SSR}{SST}SSR=\sum_{i=1}^{n}(\hat{y}-\bar{y})^{2}SST=\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}

\bar{R}^{2} 越高,模型拟合效果越好。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/117695.html

(0)
上一篇 2025-11-19 07:00
下一篇 2025-11-19 07:15

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信