三种统计图的优点和缺点(统计学系列两个重要统计量)

我们先来复习一下统计学上常用的专门术语:

整体常称为总体,总体中的每一分子称为一个个体。从总体中抽选出的那部分个体,称为样本。样本中所含的个体数,称为样本大小样本容量。从总体中抽选出样本的过程叫抽样,也有叫取样的。与研究的问题有关的往往只是个体的某项(或某几项)指标,也可把个体的指标值就说成是该个体的。

还有一个很常用的专门统计术语,叫统计量

统计量是统计理论中用来对数据进行分析、检验的变量,通俗的讲就是指从样本算出的量,在一个问题中考虑怎样的统计量,当然要取决于所要解决的问题的性质。应用上最重要的两个统计量---样本值的平均与样本中带有某种属性的个体的比率。今天我们就来复习一下对它们的认识。

1、平均值(比率)的定义

平均值:

设有N个数值a1 , …, aN,其算术平均值在统计上常称为均值,记为:

三种统计图的优点和缺点(统计学系列两个重要统计量)(1)

比率:

比率可以看作是一种特殊的平均值。

设有N个对象A1, … , AN,其中每个对象或具有某种性质P或不具有性质P,二者必居其一且只居其一。以M记A1, … , AN中具有性质P的个数,则A1, … , AN具有性质P的对象的比率为M/N。现在让我们把每个对象Ai与一个数值Xi对应起来。具体地说,若Ai具有性质P,则令Xi=1,否则令Xi=0。易见

三种统计图的优点和缺点(统计学系列两个重要统计量)(2)

比率M/N等于X1 ,…, Xn的均值`x。

2、 平均值的代表性

先介绍一下总体均值,它是指总体中一切个体的指标值的平均。如果均值是从样本算出来,则称为样本均值。

平均值应用虽然很广,但是它也只是刻画了事物的一个方面。为了对事物作更全面的研究,还需引用其他的统计指标。如总体中各个体的指标值的散布程度。散布程度大小将影响到两件事情:

1) 总体均值在总体各个体指标值中的代表性;

2) 当从总体中抽样以估计总体均值时,估计的准确程度。

3、 数量上对散布程度进行刻画

1) 用极差:用指标值中的最大值减去最小值。这个指标受个别极端值的影响太大。

2) 用平均绝对偏差:

一般地,设一总体包含N个个体,其指标值分别为a1 , …, aN,则其平均绝对偏差定义为

三种统计图的优点和缺点(统计学系列两个重要统计量)(3)

其中`a为a1 , …, aN的均值。

3) 用方差和标准差:

一般地,设一总体包含N个个体,其指标值分别为a1 , …, aN,则其方差为

三种统计图的优点和缺点(统计学系列两个重要统计量)(4)

均方差或标准差为方差开根号。

平均绝对偏差和标准差这两个指标都是基于个体指标值与总体均值的偏差,作为个体指标散布程度的衡量,都是合理的,但是应用上,方差要重要得多。

下面来计算与比率相联系的总体方差:

设总体有N个个体,其中M个的指标值为1,其他的指标值为0(1和0是总体中的个体是否具有某种属性P的标志),则总体中一切个体指标值的和即为M,因而总体均值是

三种统计图的优点和缺点(统计学系列两个重要统计量)(5)

就是具有属性P的个体所占的比率。方差是:

三种统计图的优点和缺点(统计学系列两个重要统计量)(6)

4、了解了方差的意义后,我们利用它来讨论用样本均值估计总体均值的精度问题。

当用样本均值去估计总体均值时,样本大小n愈大,则估计得精度一般也愈好。这好像是大家都了解的事实。但它的道理何在,具体能精确多少,如何衡量呢?

其实前文介绍的方差可以理解为:从总体中抽出一个个体,以其指标值x去估计总体均值

由于x可以是a1,可以是a2,…也可以是aN, 各有1/N的可能性,故用x去估计`a,所产生的误差也有N种可能:或为a1 -`a或为a2 -`a…或为aN -`a,把这N个可能的误差平方相加,再用N除即得方差。

以上的分析方法对于抽取多个个体的情况也可以用。一般可以证明:

若有放回地抽样n次,并以它们的平均值`x估计总计均值,将有

三种统计图的优点和缺点(统计学系列两个重要统计量)(7)

也就是说,当用n个观测值的平均去估计总体均值时,方差只有期初方差的1/n。这个就称为样本均值`x的方差。

如果抽样是不放回地(样本大小n不能超过N),将有样本均值`x的方差为

三种统计图的优点和缺点(统计学系列两个重要统计量)(8)

同理,估计“比率”的特例,总体中有N个个体,其中具有某种属性P的个体的比率为p=M/N,若从总体中抽出n个样本,以m记样本中具有属性P 的个体数,而用`p=m/n去估计p,则`p实际上就是样本均值,因此`p的方差是

三种统计图的优点和缺点(统计学系列两个重要统计量)(9)

从样本均值的方差的计算可以得出如下结论:

1) 当用样本均值`x去估计总计均值`a时,`x的方差随着样本大小n的增加而减小,而方差的减小意味着估计精度的提高。

2) 当n>1时,(N-n)/(N-1)<1。在样本大小一样时,不放回抽样的样本均值的精度要高些。

3) 前面说到在刻画“散布度”时,方差最重要,其中一个重要理由就是样本均值`x的方差与总体方差之间有简单的如上关系式。

5、样本方差和总体方差的估计

设从总体中随机地抽取大小为n的样本,结果记为x1,…,xn。`x为样本均值,可以算出样本的方差为:

三种统计图的优点和缺点(统计学系列两个重要统计量)(10)

现在考虑用s2估计总体方差。

1) 从样本均值的方差的计算可看出,需要把n取得足够大,才能使`x的方差降到相当小(从而保证`x足够的精度)。对用s2估计总体方差来说,n要求更大,一般需要在100以上。若n太小,估计精度降低,作用就小了。

2) 用s2估计总体方差,有一个缺点,就是它系统地偏低,经过适当修正后,能得到对总体方差的无偏估计。这个修正因子是:

三种统计图的优点和缺点(统计学系列两个重要统计量)(11)

视抽样为放回与无放回而定。得到的总体方差的估计

三种统计图的优点和缺点(统计学系列两个重要统计量)(12)

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页