统计学基本概念及方法 统计学基本术语
总体、个体与样本、样品
如下图所示为总体、样本等术语描述
总体:把研究或需要测量对象的全部称为总体。
个体:构成总体的每一个成员或数据称为个体。
参数:用总体的所有数据计算出的数值(如均值、标准差等)称为总体的参数,如总体平均值(μ)、总体标准差(σ)。
样本:从总体中抽出来的一部分数据称为样本。
样品:样本中包含的个体称为样品。
样本容量:样本包含个体的数量,通常用n表示。
统计量:用样本的所有数据计算出的数值(如均值、标准差等)称为样本的统计量,如样本均值(X bar),样本标准差(s)。
描述计量型数据特性
一组计量型数据能显示3个特性:中心趋势、变异和形状。
xn样本均值:若样本(样本量为n)的观测值为x1,x2,....,xn,则样本均值为x bar
例:在一个行动中,战机战斗进行了3000次战斗,总共用6900小时,那么每次战斗平均用时多少?
例:抽检一批零件的抗拉强度,抽检10件检验结果为260、230、240、236、248、248、252、278、265、262,则抗拉强度的均值是多少?
该零件抗拉强度的均值为:
均值的特性:
均值的计算使用了每个观测值,即每个观测值对均值都有影响;
所有观测值对均值的偏差的总和为零;
均值对极端的观测值很敏感,极端值会导致均值向他偏移。
中值
将一组观测值按大小顺序排列,位于中心的数值即为中值,若观测个数为偶数,则中值为中间两个数值的平均,若观测的个数为奇数,则位于中间的数值为中值。
样本中值:假如x(1)、x(2)..... x(n)是按大小排序的样本值,则样本中值为:
因为中值不像均值对极端值敏感,因此,当有极端大或极端小值时,中值比均值更能代表数据的位置。典型的例子就是一个城市居民的收入中值。
众数
众数是样本中出现次数最多的观测值,众数可以是唯一的,也可以有不止一个,有时并不存在众数。
众数的特性:
当观测值为分类式(如名义数据、序列数据)时,众数是描述数据位置的最好指标,典型的例子是一个公司内员工的收入的众数。
当众数不止一个时,从中抽取样本的总体通常是多个总体的混合。
四分值(如下图所示)
将一组按大小顺序排列的数据平分为四部分,分界点即四分值:
第一四分值:约25%的观测值小于它;Q1=1/4(N 1)
第二四分值:约50%的观测值小于它;Q2=中位数
第三四分值:约75%的观测值小于它。Q3=3/4(N 1)
2)变异(极差、标准差、方差、变异系数)
极差
极差为样本中最大和最小观测值之间的差值,即:
极差是测量数据变异的最简单的方法,但它忽略了最大和最小值之间的所有信息。如两个样本:
{10 20 50 60 70 90} {10 40 40 40 90}
两个样本具有相同的极差R=80,但是,第二个样本的变异只是2个极端值的变异,而在第一个样本,中间的数值也有相当大的变异,所以当样本量较小(n≤10)时,极差丢失信息的问题不是很严重,至少当n>90时,R才有意义。
方差与标准差
若x1,x2,....,xn 是一个具有n个观测值的样本,则样本方差为:
方差/标准差特性:
方差/标准差计算使用了所有观测值,每个观测值对方差都有影响;
方差/标准差对极端值很敏感,因平方的缘故,极端大的观测值会严重地放大方差/标准差。
变异系数
变异系数为标准差与均值的比值,即:
变异系数也是描述波动或变异情况的统计量,常用于不同数据的离散程度的比较。
3)形状(偏度、峰度)
偏度:偏度是分布形状是否对称的统计量,即:
当:β3=0,对称分布
β3>0,表示右偏态分布
β3<0,对称左偏态分布
峰度:是分布形状平坦程度的度量,即:
,
免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com