回归分析中自变量取舍、检验及多重共线性处理（VIF）

大家好，欢迎来到IT知识分享网。

有可能错过理论上有意义发现
违背了简约原则
浪费了自由度
导致估计精度下降

如果忽略有关自变量可能有两种情况

所忽略的变量与模型中其他变量无关
所忽略变量与模型中其他变量有关
针对第一种情况，最小二乘估计无偏，但对第二种情况，被忽略自变量成了误差项一部分，使得x2与误差项之间不再保持独立，因此，回归系数将是总体参数的有偏估计（看第8章）

对因变量取自然对数log作用在于：

我们关注焦点是自变量导致因变量改变的比例，而不是绝对量
取自然对数后因变量分布更趋近于正态分布，这将有助于减小样本中异常值对回归估计的影响；另外，对因变量取自然对数，还能消除残差的异方差（乘法变加法）以及残差的非正态性

SST保持不变
SSR会增加(至少不减少）
SSE会减少（至少不减少）
R^2会增加（至少不减少）
MSR一般会增加
MSE一般会减少
回归方程F检验值一般会增加
注意：对于第5和第7项，当回归模型中加入不相关变量时，对解释平方和没有贡献，却消耗了更多的自由度，此时可能导致不好的模型

为什么自由度损失越少越好？

F检验：检验因变量Y和自变量x1,x2,x3…的线性关系是否显著，即判断所有的回归系数中是否至少有一个不等于0；我们不仅可以利用F检验来检验回归模型，还可以用它来检验模型中某个回归系数是否为0；F检验是比t检验更为一般的统计检验

回归分析两个常见问题：

加入了不相关的自变量，其后果是：
#1. 错过有理论价值的发现
#2. 违背简约原则
#3. 损耗自由度：模型中多增加一个自变量将多消耗一个自由度，当样本量较少时，过度损耗自由度可能会造成回归方程无法求解
#4. 降低估计精度：加入自变量过多，自变量间相关程度就可能增加，容易造成多重共线性，从而降低估计精度
忽略了关键的自变量

加入和删除自变量时，应该遵循两个标准：

加入自变量要有理论依据
用F检验来排除那些不相关的自变量

减少自变量
增加样本量
3.换用数据
多重共线性分为完全多重共线性和近似多重共线性，完全多重共线性不常见，但近似多重共线性很常见
多重共线性几乎不可避免，因为自变量之间总会存在某种程度的相关，但只有当自变量之间线性关系高到一定程度才发生多重共线性问题
多重共线性会导致参数估计值标准误增大等问题
除完全共线性外，即使较强的多重共线性也没有违背多元回归分析的假定，即回归参数OLS估计仍然是无偏和一致的
完全多重共线性问题对分类变量转化为虚拟变量也有指导意义，如季节问题，完全多重共线性会导致OLS估计有偏，因为它的矩阵是奇异矩阵，是不可逆的
近似多重共线性是可以估计的，但是估计的误差很大，即回归参数估计值标准误过大，而回归系数估计的标准误过大会导致统计检验和推论不可靠
多重共线性问题使得我们意识到不能在模型中无限度增加自变量数目，因为自变量的增加，使得每个自变量能被模型其他自变量解释的程度越来越高，复相关系数也越来越大，多重共线性问题越来越严重
反映多重共线性程度指标VIF（方差膨胀因子）
VIF=1/TOL=1/(1-R’^2)

判断是否存在严重近似共线性经验性原则：

自变量中最大方差膨胀因子VIF大于10
平均方差膨胀因子VIF明显大于1
如果满足上述一条，则我们可认为存在严重的近似多重共线性问题

多重共线性处理办法：

保留重要解释变量，去掉次要或可替代解释变量
改变解释变量形式
ex：对横截面数据采用相对数变量，对于时间序列数据采用增量型变量
差分法
逐步回归分析
逐步回归分析是将逐个引入自变量，引入条件时该自变量经F检验显著，每引入一个自变量后，对已选入变量进行逐个检验，如果原来引入的变量由于后面变量引入而变得不再显著，就将其剔除
主成份分析
主成份分析的降维优势明显，主成分回归方法对一般多重共线性问题还是适用的，尤其是共线性较强的变量之间
偏最小二乘回归
岭回归（L2正则）
岭回归通过最小二乘法改进允许回归系数有偏估计量存在而补救多重共线性方法，采用它可允许小的误差而换取高于无偏估计量的精度
增加样本容量
多重共线性问题实质是样本信息不充分而导致模型参数不能精确估计，故追加样本信息是解决问题的一条有效途径

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/128876.html

回归分析中自变量取舍、检验及多重共线性处理（VIF）

相关推荐

发表回复