对分类变量进行正态分布检验(连续变量假设检验)

正态分布简介

正态分布(Normal Distribution)是统计学中一个非常重要的连续性分布,又称为高斯分布。我们在高中或者大学概率论中都学过,正态分布基本上能描述所有常见的事物和现象,如正常人的身高、体重等。同时,不少医学现象是服从正态分布或近似正态分布的,如同性别健康成人的红细胞数、血红蛋白量、脉搏数等;医学实验中的随机误差,一般表现为正态分布;当然,也有的医学资料虽不呈正态分布,但可经过变量变换,转换为正态分布,由此在转换后可按正态分布规律来处理。

正态曲线呈钟型两头低中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线

对分类变量进行正态分布检验(连续变量假设检验)(1)

正态分布是一种概率分布,通常记作N(μ,σ)μ是遵从正态分布的随机变量的均值σ是该随机变量的方差。从整体分布图上可看出,正态分布以均数 μ 为中心左右对称,当x < μ ,f(x)随着x的增大而增大;当 x> μ 时,f(x)随着x的增大而减小;

正态分布有两个参数,即均数 μ 和标准差σ,其中μ是位置参数,当 恒定后, μ增大,则曲线沿横轴向右移动;反之,则向左移动。 σ是形状参数,当μ恒定时, σ越大,表示数据越分散,曲线就变“矮胖”, σ越小,表示数据集中,曲线越“瘦高”

正态分布的特征,归纳起来有两点:一是对称性,二是峰度。分布不对称的就是偏态,有正偏态和负偏态,峰度也有两种,一是尖峭峰,另一个是阔峰。

SPSS正态检验方法

在SPSS中有两种检验方法:

一是图示法,主要采用概率图 P-P图Q-Q图,其中 P-P图中有以正态分布标准参考线,若散点在参考线周围,则符合正态分布。可通过SPSS中的“分析-描述统计—P-P图/Q-Q图”和“分析—描述统计—探索性分析”中实现

二是计算法,可用 K-S 检验S-W检验。可使用“分析—描述统计—探索性分析”和“分析—非参数检验—旧对话框—单样本K-S检验”。

图示法检验:P-P图

P-P图名为“Probability-Probability Plot”,指横坐标为某种理论分布的累计概率,而纵坐标为当前数据分类累计概率的数据图。

示例:打开数据,某市从城市工业园地区抽取15名7岁以下儿童测量其体内血铅含量,那么计算该工业园地区儿童的血铅含量是否符合正态分布。

1. 打开 分析—描述统计—P-P图

对分类变量进行正态分布检验(连续变量假设检验)(2)

2. 参数说明:

  • 变量:需分析的变量,可选择多个或一个
  • 检验分布:检验分布类型,默认是正态分布,在下拉列表中可供选择类型包括β分布、χ2分布、指数分布、拉普拉斯分布、Logistic分布、对数正态分布、帕累托分布等
  • 分布参数:定义所检验的分布参数,默认是“根据数据估算”,即根据样本数据估计总体参数。
  • 转换:对原始数据进行一定的变换后再进行相应的分布检验,默认是不进行任何变换。可供选择变化:自然对数变换、数值标准化、差分变化和季节差分变化。当选择差分和季节差分变换时,需填入差分变化的数值,季节性变化仅当数据为时间序列数据时可选。
  • 比例估算故事和分配给绑定的秩:较少选择,采取默认即可

3. 结果输出与说明

  • 首先呈现的是个案处理摘要和估算的分布参数,给出了数据的样本数、正态分布的均值以及标准差。

对分类变量进行正态分布检验(连续变量假设检验)(3)

  • 对于P-P图可看出,数据点基本分布在对角线周围,表明期望累计概率和实际累计概率较为吻合,说明数据服从正态分布,从去趋势的整体P-P图来看,残差基本在y=0上下均匀分布,并且没有呈现一定的趋势,说明数据的正态分布比较好。

对分类变量进行正态分布检验(连续变量假设检验)(4)

4. 语法:

PPLOT /VARIABLES=xqhl /NOLOG /NOSTANDARDIZE /TYPE=P-P /FRACTION=BLOM /TIES=MEAN /DIST=NORMAL.

图示法检验:Q-Q图

Q-Q图原理与P-P图非常类似,也用于比较变量的实际分布与其所假定的理论分布是否一致。但P-P图比较的是两者的累计概率分布,而Q-Q图则是根据变量的实际百分位数与理论的百分位数进行绘制的,相比之下,Q-Q的适用条件较宽松,结果也更稳健。

Q-Q图的对话框界面、操作方式和P-P图基本类似。

对分类变量进行正态分布检验(连续变量假设检验)(5)

  1. 结果输出与说明
  • 首先呈现的是个案处理摘要和估算的分布参数,给出了数据的样本数、正态分布的均值以及标准差。

对分类变量进行正态分布检验(连续变量假设检验)(6)

  • 对于Q-Q图可看出,数据点基本分布在对角线周围,说明数据服从正态分布,从去趋势的整体P-P图来看,残差基本在y=0上下均匀分布,并且没有呈现一定的趋势,说明数据的正态分布比较好。

对分类变量进行正态分布检验(连续变量假设检验)(7)

  1. 语法:

PPLOT /VARIABLES=xqhl /NOLOG /NOSTANDARDIZE /TYPE=Q-Q /FRACTION=BLOM /TIES=MEAN /DIST=NORMAL.

计算法:K-S检验:
  1. 方法一:通过 探索对话实现
  • 打开 分析—描述统计—探索,进入对话框

对分类变量进行正态分布检验(连续变量假设检验)(8)

  • 关于 探索 对话框中各个选择在前面讨论过,在此不再讨论。在对话框中选择 图—含检验的正态图,点击 确定

对分类变量进行正态分布检验(连续变量假设检验)(9)

  • 结果输出与说明:我们仅看 正态分布检验参数

对于K-S检验和S-W检验,当显著性(p)大于0.05时,提示数据符合正态分布。但:

---当样本量小时,很可能数据分布畸形,检验结果却不显著

---当样本量大时,数据分布贴近正态,但结果显示p<0.05

由此可看,两个检验结果容易受到样本量的影响。有学者建议:

---当样本量小于50时,使用S-W检验

---当样本大于50时,使用K-S检验

--- 在SPSS中,当样本量大于5000时,SPSS只输出K-S检验

对分类变量进行正态分布检验(连续变量假设检验)(10)

从上表看,样本量只有15个样本,所以我们看S-W检验结果,p=0.263>0.05,说明原数据分布呈正态分布,同我们通过P-P图和Q-Q图得出的结论一致。

如果我们需要检验不同组别样本正态性,可在“探索”对话框中将分组变量选入“因子列表”,可分别检验 不同组别样本上的 正态性。

示例:判断不同医院在麻醉费用上的分布是否呈正态性?

对分类变量进行正态分布检验(连续变量假设检验)(11)

  • 语法:

EXAMINE VARIABLES=xqhl /PLOT BOXPLOT STEMLEAF /COMPARE GROUPS /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.

  1. 方法二:通过 非参数检验方法实现
  • 打开 分析—非参数检验—旧对话框—单样本K-S,进入对话框

对分类变量进行正态分布检验(连续变量假设检验)(12)

  • 参数说明:
  • --- 检验分布:有四种分布可以进行检验,默认为正态

    --- 选项:提供统计(描述、四分位数等)等常用统计量以及对缺失值的处理方式。

    对分类变量进行正态分布检验(连续变量假设检验)(13)

    • 输出结果与说明

    由下表可知,K -S 检验=0.169,P =0.200 > 0.05,血铅含量符合正态分布。

    对分类变量进行正态分布检验(连续变量假设检验)(14)

  • 语法
  • NPAR TESTS /K-S(NORMAL)=xqhl /MISSING ANALYSIS.

    下次我们介绍 连续变量分布--单样本t检验

    ,

    免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

      分享
      投诉
      首页