多元线性回归分析案例(一元线性回归模型)
y=β1 β2x ε
β1、β2是未知参数,称为回归系数,需要从样本来估计。ε是随机误差项,又称为随机干扰项,它是一个特殊的随机变量,反映未列入方程式的其他各种因素对y的影响。
我们使用最小二乘法来做一元线性回归方程的拟合。
最小二乘法
最小二乘法的性质
1、运用普通最小二乘法得到的样本回归线经过样本的均值点。
最小二乘法
2、残差的均值为0;
3、残差和解释变量不相关,即
最小二乘法
显著性校验
根据公式,我们可以得出一元线性回归方程,下面需要对拟合的质量做显著性校验。我们介绍SST、SSE、SSR的相关概念。
显著性校验
SST(总平方和)=SSR(回归平方和) SSE(残差平方和)
SST:total sum of square
反映因变量的n个观察值与其均值的总误差;
SSR:sum of squares of regression
反映自变量x对因变量y取值变化的影响,或者说,由于x和y之间的线性变化引起的y的取值变化,也成为可解释的平方和;
SSE:sum of squares of error残差平方和
反映了除x意外其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和。
决定系数
1、回归比例占总误差平方和的比例;
2、反映曲线的拟合程度;
3、取值范围在[0,1]之间;
R²趋于1,说明回归方程拟合的越好;R²趋于0,说明回归方程拟合的越差;
4、决定系数的平方根等于相关系数;
下面我们拿一组数据来进行验证(编号、广告投入额x、产品销售额y):
1 7.49 28.39
2 6.44 26.54
3 9.91 34.89
4 8.65 31.79
5 11.3 38.86
6 8.25 28.64
7 5.23 21.75
8 6.73 26.49
9 10.39 35.25
10 6.62 28.09
11 6.5 27.23
12 9.4 31.95
13 7.35 27.78
14 10.43 34.76
15 7.75 30.22
16 8.22 31.29
17 9.17 33.15
18 8.7 33.08
19 12.25 38.99
20 8.14 30.39
第一步,判断x与y之间线性相关性;根据我们在帖子"变量之间相关系数"公式求得如下:
lxy |
2872.6084 |
lxx |
1224.6016 |
lyy |
7114.1251 |
r |
0.973236226 |
说明x与y之间高度相关;
第二步、使用最小二乘法公式求得
x均 |
8.446 |
y均 |
30.9765 |
a |
2.345749344 |
b |
11.16430104 |
y=2.3457x 11.1643 |
第三步、显著性校验
SST |
355.706255 |
MST |
17.78531275 |
RMST |
4.217263657 |
SSR |
336.9209635 |
MST |
16.84604817 |
RMST |
4.104393764 |
R² |
0.947188751 |
MSE |
0.047359438 |
RMSE |
0.217622236 |
和第一步做对比,R²=0.947188751;r=0.973236226;R=r
决定系数=0.947188751,趋于1,说明一元线性回归方程拟合效果很好。
我们利用excel做下试验,结论和我们通过运算完全一样。
利用excel做一元线性拟合
第四步,验证残差的分布。a、残差的均值为0;b、残差和解释变量不相关
根据最后两列可以得到验证。
线性回归中的残差分布
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com