excel表格做线性回归(Excel工具线性回归)
今天想了好久,发现实在是取标题无能,就这样得了
线性回归,往高大上点说,是一种数据分析的方法,但往简单点说,就是在一堆都是点点的图上加一条和所有点点最贴近的直线,用来代表整张图
为什么要这么做呢?因为直线的公式简单啊,直接y=ax b,就可以根据散开的数据点,估计出一个完整连续区域上所有的值,这种方法在数学上,也可以叫做预测
线性回归如果用Excel实际做起来,可以参考一下三种方式
1) 在散点图中选中所有数据点,右键添加趋势线,选择线性,下方显示公式处打勾
这里我把显示R平方值也打上了勾,虽然这个数据不是后续计算必需的,但却是用来验证这条直线是否可用的重要指标,所以我会在后面讲的仔细点
计算出来的直线公式会直接显示在图表上,下面这个图算是举个例子:
这种直接在散点图上添加趋势线的方式最大的优点是简单,很好操作,但缺点是计算出来的直线公式显示在图表上,而且y=ax b中的系数a和常数b都只能显示出有限的几位数,精确度上会打点折扣
2) 第二个方法需要用到Excel的数据分析工具,用的是和前天的文章里画直方图同样的工具,这里我偷个懒少贴一点:
前天的链接:https://www.toutiao.com/i6593195962838024712/
装好之后按钮的位置:
打开之后选择"回归":
计算出来的东西是这么一大片数字,如果看着晕菜的话,就只挑圈出来的那三个数看看好了(系数a、常数b和R平方)
这个做法的好处是精确,一次性把所有相关的统计量都算出来了,缺点是啰嗦,算条直线冒出来一大片豆腐干,而且没点统计学知识压根搞不明白这一堆数字是干嘛的
3) 最后一种方式是直接上手用公式计算,这里需要借助一些人家专业人士的结论:
看不懂么,嗯~~~是挺容易看懵的,我大概翻译下,这几个公式的意思是:
系数a=sum((每个x值-x的平均)*(每个y值-y的平均)) /sum((每个x值-x的平均)的平方)
常数b=y的平均-a*x的平均
r平方=(sum((每个x值-x的平均)*(每个y值-y的平均)))^2/sum((每个x值-x的平均)的平方)*sum((每个y值-y的平均)的平方)
写在Excel里大概是这样:
两旁有大括号{}的是数组公式,请注意输完后Ctrl Shift Enter三键一起按
唉,算了,实在不好理解的话,这个方式就权当参考了吧
最后讲下关于r平方这个东西,一般来说,不是所有的散点图都可以画成直线的,按人家专业搞数学的人提出来的观点,要做线性回归至少得满足几个条件:
1. x和y的两组数得确定两者之间是有联系的,别闲的没事把不相干的东西放一起分析
2. 多个x之间得尽量不相干,不然重复或类似的x值会影响推测y值的准确性
3. 还有就是你得确定按散点画出来的最合适最贴近的形状是条直线,人家要是条曲线的话你不能强行勉强人家掰直了(我怎么觉得自己讲得怪怪的。。。)
前两个条件咱还可以自行理解,可是问题就是最后一个条件,怎么能确定这个散点图适合用直线来表示呢?这里就用的到r值了
r值的大名叫皮尔森相关系数(外国人都喜欢用自己的名字命名公式),用来确定两个系列的数据之间相关的程度,计算结果在-1到1之间,而且越接近1或-1的话两者相关程度越高,0附近那就表示两者基本没有线性关系
但是为了方便判断,咱们如果把r值取平方的话,得到的结果就在0到1之间,这样的话只需要看数值越大,越接近1,相关程度就越好了
一般来说,建议r平方的值至少得在0.9以上,甚至最好在0.95以上,在这个基础上画的直线会比较靠谱,适合后期做进一步预测
今天略有点超长了,我考虑下明天是不是可以水一点。。。。。。
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com