卡方检验的基本思想(一文带你全方位理解卡方检验)
一、基本概念:卡方检验
(一)定义
卡方检验主要用于研究定类与定类数据之间的差异关系。一般使用卡方检验进行分析的目的是比较差异性。例如研究人员想知道两组学生对于手机品牌的偏好差异情况。
(二)卡方值
卡方值表示观察值与理论值之间的偏离程度。
卡方值的大小与样本量(自由度)有关。一般来说,卡方值越大越好,但并不准确。比如5000和5010的差异为10;40和50的差异为10,明显后者差异更大。
最终查看卡方值对应的 p 值更准确。
二、卡方检验分类
(一)方法分类
SPSSAU系统中,卡方检验分为【通用方法】中的交叉卡方,以及【医学/研究】模块中的卡方检验、配对卡方、卡方拟合优度、分层卡方五类。
(二)方法对比
(1) 交叉卡方
适用于大部分场景之中,满足大部分用户需求,使用频率高,仅使用Pearson卡方,不支持加权数据。
交叉卡方仅输出一个交叉卡方分析结果如下图:
可以看到卡方值为16.667,p =0.000<0.01,所以不同地区的饮食习惯情况呈现出显著性差异。
(2) 卡方检验
适用于实验医学研究方向,专业性更强,使用频率高。
从上表可知,利用卡方检验(交叉分析)去研究减肥方式对于胆固醇水平共1项的差异关系【独立性】,不同减肥方式样本对于胆固醇水平共1项呈现出显著性(p <0.05)。
总结可知:不同减肥方式样本对于胆固醇水平全部均呈现出显著性差异。
①Pearson卡方、yates校正卡方、Fisher卡方三类卡方,具体选择标准如下图
上表格为卡方检验的中间过程值,由于本案例数据为3*2格式,且1 <=E<5 格子的比例大于20%(此处为33.33%),因而最终选择使用yates校正卡方值。
【特别备注: Pearson卡方和yates校正卡方完全相同是正常现象,多数情况下二者完全相等】
② 加权数据
数据格式如下
③效应量指标(研究差异幅度情况,效应量值越大说明差异幅度越大,通常情况下效应量小、中、大的区分临界点分别是 0.20,0.50 和 0.80)卡方检验时,通常有5个指标均可表示效应量大小,区别在于使用场合不一样,选择标准如下图:
上表格为效应量指标,由于本案例数据为3*2格式,所以使用Cramer V 研究差异幅度情况。Cramer V =0.47,说明各减肥方式下胆固醇水平差异接近中等水平。
④卡方检验多重比较(多重比较得到多个卡方值,比较更加全面,通常在医学研究中使用,且类别数量较少时使用)
卡方检验多重比较指两两类别组合(每个组合共4个数字)重复进行卡方检验; 多重比较的次数=C(X类别个数)*C(Y类别个数),比如X类别为3,Y类别个数为5,则为C(3,2)*C(5,2)=30次;
- SPSSAU仅针对第1个Y进行,可通过更换Y的位置实现其它分析项的多重比较,X或Y的选项个数大于10时不进行多重比较;
- 多重比较时提供的是Pearson卡方检验;
-
多重比较时,检验次数增多会增加一类错误的概率,建议使用校正显著性水平(Bonferroni校正);如果显著性水平为0.05,并且两两比较次数为3次,那么Bonferroni校正显著性水平为0.05/3次=0.0167,即 p 值需要与0.0167进行对比,而不是0.05;
【特别提示:多重比较通常在医学研究中使用,且类别数量较少时使用】
⑤ 趋势卡方检验(Cochran-Armitage 趋势卡方检验(Linear-by-Linear)研究k*2(或2*k)列联表数据的趋势差异关系;通常用于k*2(或2*k)的列联表结构,k为有序定类数据,2指两个类别)
- 如果
p
值小于0.05则说明k组间呈现出某种趋势变化;
- 如果
p
值大于0.05则说明k组间不会呈现出趋势变化;
-
SPSSAU默认均提供趋势卡方检验(Linear-by-Linear)结果,但需要注意使用此指标的前提条件。
(3)
配对卡方
配对卡方研究配对定类数据间的差异关系,适用于两配对数据的比较,使用频率低,提供McNemar检验与Bowker检验,选择标准如下:
本次配对对比类别数量为2(即配对四表格),因而使用McNemar检验进行研究。配对数据之间呈现0.05水平的显著性(chi=2.000,p=0.022<0.05),意味着配对数据间有着明显的差异性。
总结可知:使用McNemar检验研究A方法共有两种结果和B方法共有两种结果之间的差异性,分析显示配对数据间呈现出显著性差异。
(4) 卡方拟合优度检验
卡方拟合优度检验研究定类数据的频数分布是否与期望频数保持一致。
针对性别进行卡方拟合优度检验,研究数据分布是否与期望分布保持一致,从上表可以看出:性别全部均没有呈现显著性(p >0.05),意味着接受原假设(原假设:实际分布比例与预期比例一致),即数据分布与预期一致。
(5) 分层卡方
分层卡方研究X与Y之间的差异时,进一步研究是否存在扰动因素项Factor项。
针对分层卡方,其涉及的理论知识内容,如下表格:
通常情况下,首先查看 "比值比齐性检验",如果其呈现出显著性(p < 0.05),则说明具有混杂因素,即需要考虑分层项,分别查看不同分层项下的数据结果。反之如果没有通过 "比值比齐性检验",即说明没有混杂因素不需要考虑分层项,报告整体的结果即可(包括卡方检验,以及OR值)。
三、卡方检验应用
(一)分析步骤
(1)分析X分别与Y之间是否呈现出显著性(p 值小于0.05或0.01);
(2)如果呈现出显著性,具体对比选择百分比(括号内值),描述具体差异所在;未呈现出显著性则停止分析;
(3)对分析进行总结。
(二)多选题分析中的应用
(1)卡方拟合优度:多选题,检验各选项选择比例是否有显著性差异
从上表可以看出,各选项选择没有显著差异,百分比选择分布较均匀(chi=5.947,p=0.203>0.05)。
(2)Pearson卡方:单选-多选,交叉差异检验
从上表可以看出,性别对于共五项表示的多选题并不会呈现出显著差异性(chi=1.208,p=0.877>0.05)。
(3)Pearson卡方:多选-多选,交叉差异检验
从上表可以看出,两个多选题之间并没有明显的关联关系,百分比选择分布较均匀(chi=0.732,p=1.000>0.05)。
四、数据格式
卡方检验数据格式可分为常规格式与加权格式两类。
上述五类卡方检验方法,除交叉卡方外,其余四类卡方检验均支持加权数据格式。
(1)常规格式
一行代表一个样本,如果有100个样本即为100行;一列代表一个属性;这类格式最为常见,而且此类数据格式可以做任何的分析。因为其携带着所有最原始的数据信息。
(2)加权格式
例如:胆固醇水平有2项,减肥方式有3项,因而为3*2共6种组合,则一定需要有6行,并且一定为3列,最后一列叫‘加权项’,这样的数据格式上传到SPSSAU后进行分析即可。
五、差异幅度
- p
值越小,差异幅度越大;
-
效应量值越大说明差异幅度越大,通常情况下效应量小、中、大的区分临界点分别是: 0.20,0.50 和 0.80。
六、定量数据做卡方检验
卡方检验主要用来研究定类与定类数据间差异关系的;
那么定量数据能否进行卡方检验呢?此时可以分为以下三种情况讨论:
(1)定量数据可以转化为定类数据(可以进行卡方检验)
① 自动按分位数分组
例如:想让样本数据按五分位数进行分样本处理; 第一步将数据按照指定变量从小到大排列; 第二步分别找到20%分位点、40%分位点、60%分位点、和80%分位点; 第三步将小于20%分位点的全部取值为1,20%-40%取值为2,60%-80%取值为3,80%以上取值为4。
② 按实际意义分组
例如:本科以下、本科以上两组; 20岁以下、20-30岁、30岁以上。
(2)定量和定类模糊(视研究偏好而定)
例如:量表数据,比如非常不满意,不满意,一般,满意和非常满意
(3)定量不可转化为定类数据(不可以进行卡方检验)
如果研究定类与定量数据之间的关系,此时应该使用方差或者T检验。
差异关系研究方法选择见下表:
,
免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com