中心极限定理意味着什么(如何简单理解并应用)
老板开会说,他想知道该市所有医生的平均收入,老板让你谈谈你的想法。你说:首先应该从该市所有医生中进行50次随机抽样,每次抽取200人,则可以算出50个平均收入值,然后对这50个平均值再取平均值,根据中心极限定理,该平均值就会很接近于该市所有医生的平均收入。
把例子中的数据广义化,就能归纳出中心极限定理的概念。
中心极限定理:中心极限定理指的是给定一个任意分布的总体。每次从该总体中随机抽取 n个样本,一共抽 m 次,然后把这 m 组抽样分别求出平均值。 这些平均值的分布近似服从正态分布。
1、下面对中心极限定理进行演示:
一日闲来无趣,你自己制作了六个纸团,分别写着数字1-6,每次从六个纸团中抓取一个,一共抓取了1000次。因为每个纸团被抽中的概率是相等的,因此这个总体是服从均匀分布的,即6个数字出现的次数都在165次左右,该总体的均值为1/6×(1 2 3 4 5 6)=3.5。
图1:总体分布图
现在我们从模拟的结果中进行抽样,抽取100组,每组10个样本,这100组的均值分布大概如图2:
图2
换一种抽样方式,还是从1000个总体中抽样,抽取100次,但是每组的样本量改为50个,100组的均值分布为图3:
图3
再把每组的样本量改为100个,均值的直方图为图4:
图4:均值直方图
由上述例子可以看出:无论总体是什么样的分布(如所给例子,总体分布不是正态分布,而是均匀分布),依据上述过程进行多次抽样,样本统计量始终紧紧围绕在总体参数周围,并且是呈正态分布的。而且每次抽样的样本含量越多,正态性越明显。
回到刚开始的例子,既然样本统计量会始终围绕在总体参数周围,并且呈正态分布。那么,我们用多次抽样后得到的平均收入近似代替该市所有医生的平均收入是合理可行的。#清风计划#
,
免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com