卡方检验与非参数检验区别(非参数检验之非参数卡方检验)
快要临近春节了,但持续一年之久的疫情还在继续,不知是否会影响到今年的春节回家之路。今天故以杜甫的思乡诗开头。
月夜忆舍弟
唐 杜甫
戍鼓断人行,边秋一雁声。
露从今夜白,月是故乡明。
有弟皆分散,无家问死生。
寄书长不达,况乃未休兵。
这首诗杜甫写在安史之乱年间,当时各地处于战乱之中,杜甫的几个兄弟处于战乱地区,音信不通,触发了杜甫的忧虑和思念,该首诗表达了杜甫对兄弟的思念之情。
非参数检验简介在前面章节中谈到的检验多为参数检验,需要符合一定的条件,如独立性、正态性、方差齐性等。若资料在理论上不满足相应条件,则使用上述方法会有一定的误差;如何得到正确的检验结果呢?那就是非参数检验。
非参数检验(nonparametric test)是相对于参数检验而言的。如果总体分布为已知的数学形式,对总体参数做假设检验称为参数检验。
非参数检验直接对总体分布做假设检验而不事先指定其分布形式,也可称为任意分布检验(distribution-free test)。其方法较多,常用基于秩转换的非参数检验,即秩和检验。秩和检验是先将数值变量资料从小到大,或登记资料按其高低转换成秩后,再计算秩检验统计量。其特点是假设检验的结果对总体分布的性质差别不敏感。
相对于参数检验而言,非参数检验适用范围更广,适用计量、等级和计数资料的统计分析;并且,非参数检验不需要知道原始数据的数值大小,仅需要知道各分类数据的频次就可以进行检验。其应用范围包括:
- 不满足正态 和 方差齐性等条件的计量资料
- 分布未知的计量资料
- 等级资料
非参数卡方主要用于分析单组计数资料是否符合特定的分布。
示例1:某高校随机抽取600名学生,想知道性别(男生和女生)是否符合1:1分布?或者是否符合0.4:0.6分布?
1. 数据录入:
2. 建立假设:建立检验假设,确定检验水准 α
- H0:男生、女生符合1:1分布
- H1:男生、女生不符合1:1分布
- α = 0.05,即置信区间为95%
3. 参数选择
(1) 选择 分析—非参数检验—旧对话框—卡方
(2) 参数说明与选择
a. 检验变量列表:用于从变量列表中选择 检验变量,必须为数值型分类变量;若选择多个变量,将淡入进行分析。
b. 期望范围:设置检验变量取值的区间范围,有两种可选方式:
- 从数据中获取:表示检验变量每个唯一的取值作为一个类别,默认选项
- 使用指引指定范围:可自行设定特定的范围,需要在上限、下限中分别指定检验变量的最大、最小值,超过该范围样本则忽略不计
c. 期望值:设置待检验理论期望值的具体取值,有两种可选方式:
- 所有类别相等:表示每个类别的期望取值都相等,即检验样本是否为均匀分布,默认选项。本例选择 所有类别相等
- 值:自行设置特定的期望值,可在 右侧输入框 指定一个期望值,然后通过按钮 添加、更改、删除 指定期望值的取值;特别注意:输入的顺序非常重要,每个新输入的期望值自动显示在期望值列表的底部,而列表中的期望值以从上到下的顺序,对应样本类别取值从小到大的顺序。
- 统计:显示 数据基本描述,及 缺失值的处理方法
- 精确检验:当应用卡方检验的前提条件不满足时,例如有多于20%的单元格期望频数小于5时,可以在 精确检验 界面设置采用其他的检验方法,包括 Exact精确检验 和 蒙特卡洛方法。
4. 数据结果与说明
(1)数据基本描述:显示实际样本数和期望样本数(本例各类别比例相等,即为599/2=299.5)
(2)检验结果
- 从下表可知,本例的卡方=0.736,显著性差异p=0.391>0.05,说明男性、女性分布符合均匀分布,即1:1分布
5. 语法:
***************** 卡方检验 *******************.
NPAR TESTS
/CHISQUARE=性别
/EXPECTED=EQUAL
/STATISTICS DESCRIPTIVES
/MISSING ANALYSIS.
示例2:示例1中我们选择的是“所有类别都相等”,如果我们要指定特定的分布男:女=0.6:0.4,那参数设置和检验结果如何呢?
1. 建立假设:建立检验假设,确定检验水准 α
- H0:男生、女生比例符合0.6:0.4分布
- H1:男生、女生比例不符合0.6:0.4分布
- α = 0.05,即置信区间为95%
2. 参数选择
- 主页面:在检验变量列表中选择 性别
- 值:
---- 因为男性 值为1,女性为 2,所以在 值 右边的输入框中 输入 0.6,点击添加;然后再输入 0.4,点击添加
- 其他选项 选择默认
3. 数据结果与说明
(1) 数据基本描述:显示实际样本数与期望样本数
(2) 检验结果
- 从下表可知,本例的卡方=16.975,显著性差异p=0.000 < 0.05,说明男性、女性分布不符合0.6:0.4比例分布。
4. 语法:
***************** 卡方检验 *******************.
NPAR TESTS
/CHISQUARE=性别
/EXPECTED=0.6 0.4
/STATISTICS DESCRIPTIVES
/MISSING ANALYSIS.
前面我们看到的数据都是有相应的样本的数据;在具体分析时,也可用各类别的频数数据,如以下示例所示:
示例3:在测试数据中,男生-310人,女生-289人,那男生、女生比例分布是属于均匀分布?
1. 建立假设:建立检验假设,确定检验水准 α
- H0:男生、女生符合1:1分布
- H1:男生、女生不符合1:1分布
- α = 0.05,即置信区间为95%
2. 参数选择
(1) 数据加权
- 选择 数据—个案加权,本例选择 count加权
(2) 选择 分析—非参数检验—旧对话框—卡方
(3) 参数说明与选择
- 检验变量列表:将 gender 选择为检验变量列表。
- 期望范围--从数据中获取:表示检验变量每个唯一取值作为一个类别,默认选项
- 期望值:选择 所有类别相等
3. 数据结果与说明
(1) 数据基本描述:显示实际样本数和期望样本数(本例各类别比例相等,即为599/2=299.5)
(2) 检验结果
- 从下表可知,本例的卡方=0.736,显著性差异 p=0.391>0.05,说明男性、女性分布符合均匀分布,即1:1分布
- 从上表可看出,该结果同所有样本数据相一致。
4. 语法
****************** 加权 **************.
WEIGHT BY count.
****************** 卡方检验 **************.
NPAR TESTS
/CHISQUARE=gender
/EXPECTED=EQUAL
/MISSING ANALYSIS.
免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com