spss回归分析(SPSS方法岭回归分析)

前言

岭回归:岭回归分析是在构建多重线性回归模型时, 对基于“最小二乘原理”推导出的估计回归系数的计算公式作一下校正,使回归系数更稳定。

当自变量之间存在较强的多重共线性时,求得的多重线性回归模型很不稳定; 尤其是某些自变量回归系数的正负号与实际问题的专业背景不吻合时,岭回归分析可以很好地解决这一问题。

1 实施的一般步骤

1 岭回归分析通常要先对 X 变量作中心化和标准化处理, 以使不同自变量处于同样数量级上而便于比较。

2确定 k 值

① 岭迹图

岭迹法主要是通过将 β( k) 的分量 βi( k) 的岭迹画在同一幅图上, 从图中选择尽可能小的 k 值, 使得各回归系数的岭估计大体稳定, 即各分量在图上的岭迹曲线趋于平行于X 轴。

选择 k 值的一般原则主要有: ①各回归系数的岭估计基本稳定; ②用最小二乘估计时符号不合理的回归系数, 其岭估计的符号将变得合理; ③回归系数的大小要与实际相符, 即从专业上讲对因变量影响较大的自变量其系数的绝对值也较大; ④均方误差增大不太多。

②方差膨胀因子法

方差膨胀因子 cjj 度量了多重共线性的严重程度, 一般当 cjj > 10 时, 模型就有严重的多重共线性。

3根据岭迹图进行变量筛选及重新确定k值

把岭迹应用于回归分析中自变量的选择,其基本原则为:

(1)去掉岭回归系数比较稳定且绝对值比较小的自变量。这里岭回归系数可以直接比较大小,因为设计阵 X 是假定已经中心标准化了的。

(2)去掉岭回归系数不稳定但随着 k 值的增加迅速趋于零的自变量。

(3)去掉一个或若干个具有不稳定岭回归系数的自变量。如果不稳定的岭回归系数很多,究竟去掉几个, 去掉哪几个, 并无一般原则可遵循。这要结合已找出的复共线性关系以及去掉后重新进行岭回归分析的效果来决定。

4对模型进行表达及作出专业结论

在进行岭估计后, 应根据所估计的参数写出回归方程, 并结合专业知识判断方程中各自变量的系数及正负号是否符合实际情况。最后根据回归系数的大小来判断各自变量对因变量影响的大小及根据所求得的回归方程进行预测。

2 案例分析

以下为11名儿童的智力测试数据,试以IQ为因变量拟合多重线性回归模型。其中,变量常识(X1)、算数(X2)、理解(X3)、拼图(X4)、积木(X5)、译码(X6),IQ(Y)。

spss回归分析(SPSS方法岭回归分析)(1)

数据类型:自变量(X1~X6),因变量Y 均为定量资料;根据研究目的,试采用多重线性回归模型来分析。

3 SPSS操作

(Ⅰ)先拟合多重线性回归模型

(Ⅱ)输出结果

为了说明问题,只列出系数表;

变量X1~X6 ,p-value 均 大于0.05,即纳入多重线性回归模型中无统计学意义;其次,共线性诊断中,VIF(variation inflation factor)均大于10,提示变量间存在多重共线性。

spss回归分析(SPSS方法岭回归分析)(2)

由于多重共线性的存在,使得多重线性回归模型不稳定,而岭回归分析可以很好地解决这个问题。

4 SPSS之岭回归

在SPSS中没有专门的菜单模块来做岭回归分析,但可以通过额外编写了一个程序文件: ridge regression.sps, 用户可以编写一段代码来调用该程序做岭回归分析。

spss回归分析(SPSS方法岭回归分析)(3)

其中,

INCLUDE ' 文件 Ridge regression.sps 所在路径 ' .

RIGDEREG ENTER = 自变量

/DEP = 因变量

/START = k值起始值

/STOP = k值终末值

/INC = k值步长

【运行】单击 RunALL

运行结果:

岭回归:岭迹图,从图中大致看出k≧0.1 时,岭迹曲线趋于稳定 。

spss回归分析(SPSS方法岭回归分析)(4)

输出的变量X1~X6 不同K值情况下的回归系数

(在SPSS中,原始数据已标准化)

spss回归分析(SPSS方法岭回归分析)(5)

验证当k=0.1时的模型,

spss回归分析(SPSS方法岭回归分析)(6)

验证结果:

spss回归分析(SPSS方法岭回归分析)(7)

本结果拟合得不太理想,仅供参考~~~

因此可以写出岭回归方程式:y= ~~~~

来源:SPSS天天学

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页