excel在抽样推断中的应用心得(Excel数据分析抽样)

昨天那篇讲了几种抽样的方法,今天主要内容集中在三个地方:

1) Excel自带的抽样工具

2) 一般什么情况下用得到抽样操作

3) 抽样数量

excel在抽样推断中的应用心得(Excel数据分析抽样)(1)

正题开始:

1) 自带的工具:如果已经装过数据分析加载项的亲可以直接在菜单的数据页面打开数据分析工具,在里面找到抽样这一项

excel在抽样推断中的应用心得(Excel数据分析抽样)(2)

excel在抽样推断中的应用心得(Excel数据分析抽样)(3)

里面提供了两种抽样方法,对应了昨天提到的系统抽样和随机抽样

excel在抽样推断中的应用心得(Excel数据分析抽样)(4)

分层抽样本身算是随机抽样的一个进阶版,在实际应用中算是同一类方法,其余请自行尝试~~~

2) 此处仅列出两个我在教材里看到的用处:一个是在总体数据量太大的情况下,用抽样的方法来精简数据,另一个是在建立数据挖掘(也能叫机器学习)的项目前期,把现有的一堆数据,切割成训练集、验证集和测试集,其中训练集需要占到最大比例,测试集少些,但还是要能尽量体现数据整体情况,验证集不是每次都需要,即便需要的时候也用不着多少

还有还有,切割数据集时,教材实名推荐分层抽样(果然是哪个麻烦按哪个来)

3) 抽样数量:昨天举的例子里,我们在一万行数据中,自行定义了抽取一半,即5000行数据出来,虽然很多情况下很多人都是坚决果断地决定下来就做了,但是这种拍脑袋拍出来的比例有个小小的问题:当我们抽取出来的样本太少的时候,它就算是用的方法再科学再系统都很难表示全部数据的特征

所以,虽然怎么定义抽取的比例是可以根据实际需要自由决定的,但是如果有需要让抽取的部分最低限度能达到和总体一致,我们还是有必要整个规矩,也就是抽取数量的最低底线

以不放回的抽样方式为例,教材里提供了这样一个公式:

excel在抽样推断中的应用心得(Excel数据分析抽样)(5)

怎么样,是不是开始产生窒息的感觉了?别急,这里的计算结果n是底线的样本数量,其余的几个部件分别是这样:

· 大写N是总体的数据量

· δ是标准差,角标上加个2就是方差,在这个公式里代表数据的分布越分散,方差越大,需要的样本数量越多(不信的亲可以自己试)

· △是样本平均值和总体平均值之间的允许的误差率上限,由我们指定,要是我们希望抽取的样本平均值和总体越接近,误差就应该越小,上标的2还是平方,别想太多了

· Za/2是置信系数对应的区间,意思是说我们如果对同一个总体反反复复的做n多次的随机抽样,就相应会得到n多个不同的样本平均值,而这n多个样本平均值和总体平均值的差,从理论角度上来说会呈现一个钟型曲线的图,这个钟型曲线大名叫正态分布(见过别的地方也有叫高斯分布的),而我们对着这个钟型曲线限制它的取值区间,取值区间Za/2越大,考虑进去的样本平均和总体平均的差异可能性越多,整个结果的可靠度就越高(这里比较绕,我看得也很晕),而且这个可靠度能高出多少是有实际数据的,一般有几个常用的正态分布概率,数据如下:

Za/2=1,对应置信水平68.27%

Za/2=2,对应置信水平95.45%

Za/2=3,对应置信水平99.73%

具体的正态分布细讲起来还挺啰嗦,我明天单独开篇

也就是说其实这东西在公式里的作用是个倍数,你希望样本可靠性多高,对应就把样本总量翻上4倍、9倍甚至16倍(且注意这上头还是有个平方的)

现在代几个数进去试试,假设一万行数据里,总体平均值300,标准差250,我们希望样本平均值的误差控制在5%以内,可靠程度95%附近,那么计算出来至少需要样本数:

n=10000*2^2*250^2/(10000*(300*0.05)^2 2^2*250^2)= 1000

——别问我为啥会算出整数,这个真的是凑巧。。。。。。

---------------------End---------------------

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页