多变量相关分析(相关分析之双变量相关)
咏柳
【宋】曾巩
乱条犹未变初黄,倚得东风势便狂。
解把飞花蒙日月,不知天地有清霜。
这首诗把柳絮飞花的景色写得十分生动。柳絮在东风相助之下,狂飘乱舞,铺天盖地,似乎整个世界都是它的了。抓住了事物的特色,使之性格化了,使人看到一个得志便猖狂的形象。
"未变初黄",准确地点出了早春季节,此时柳树枝上刚吐新芽,正是"且莫深育只浅黄"的新柳。 第一、二句写凌乱柳枝凭借东风狂飘乱舞,第四句以"不知"一词,对柳树的愚蛮可笑加以嘲讽。 诗中把柳树人格化的写法,以及诗人对柳树的明显的贬抑与嘲讽,使这首诗不是纯粹地吟咏大自然中的柳树。 咏柳而讽世,针对的是那些得志便猖狂的势利小人。 将状物与哲理交融,含义深长,令人深思
双变量相关分析线性相关性质可由散点直观地观察,如下图所示:
在我们看相关时,通常会采用线性相关系数表示相关的大小,一般用 r 表示,相关系数r是一个无单位的量值,其大小在 -1<=r<=1;具有以下特征:
- r >0 为正相关, r < 0 为负相关
- | r | 接近于1,说明相关性越好
既然有相关系数有大小,那怎么来看相应大小呢?一般来说:
- |r|<0.3 不存在线性关系
- 0.3<|r|<0.5 低度线性关系
- 0.5<|r|<0.8 显著线性关系
- |r|>0.8 高度线性关系
在SPSS中,提供了三个相应的检验方法,包括皮尔逊、肯德尔、斯皮尔曼,三者具体差别与应用场景。
- 皮尔逊 Pearson:用于两个连续性变量之间相关性,其条件:必须符合正态分布
- 肯德尔 Kendall tau-b:用于反映分类变量一致性指标,只能在两个变量均为有序分类时使用
- 斯皮尔曼 Spearman:用于两种情况: (1) 不满足Pearson相关条件 (2) 两个变量至少有一个等级变量
示例1:某地10名一年级女大学生的胸围(cm)与肺活量(L) ,分析两者之间有无线性相关关系。
1. 数据录入:
· 在SPSS的"变量视图"中设置二个变量,x代表胸围(cm);y代表肺活量。
2. 正态性检验
(1) 打开 分析—描述性—探索
(2) 正态检验结果
- 胸围/肺活量的P值分布为 0.2/0.12,均 大于0.05,所以符合正态分布检验。
3. 相关检验
(1) 打开 分析—相关—双变量
(2) 参数选择
- 变量:估计相关系数的变量,至少两个及以上变量,必须选项
- 相关系数:包括三个选项,皮尔逊相关系数为默认
- 显著性检验:如果了解变量间是正相关或负相关,应选择 双侧检验 单选按钮;否则,选择 单侧检验 按钮
- 标记显著相关性:突出标记有统计意义的相关系数,输出结果中用 * 标记 p<0.05的相关系数,用 ** 标记 p<0.01的相关系数
- 统计:说明各类统计描述,包括输出每个变量的均值和标准差等统计量;缺失值处理方式
4. 数据结果与说明
(1) 数据基本描述
- 包括平均值和标准差,以及样本数。
(2) 检验结果
- 由下表可知,相关系数为0.504,p=0.138,无统计学意义
5. 语法:
***************** 正态检验 *******************.
EXAMINE VARIABLES=x y
/PLOT NPPLOT
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
***************** 相关检验 *******************.
CORRELATIONS
/VARIABLES=x y
/PRINT=TWOTAIL NOSIG
/STATISTICS DESCRIPTIVES
/MISSING=PAIRWISE.
---------------------------------------------------------------------------------------------------------------------------------
示例2:某医师收集并测定95例糖尿病患者的体重指数BMI、HOMAR指数、A/L比值等指标,分析指标之间的相关性。
1. 数据录入:
- 在SPSS的"变量视图"中设置三个变量,体重指数BMI、HOMAR指数、A/L比值。
2. 正态性检验
(1) 打开 分析—描述性—探索
(2) 正态检验结果
- 由上表可看出,BMI呈正态分布,而HOMA-R/AL不呈正态分布
3. 相关检验
(1) 打开 分析—相关—双变量
(2) 参数选择
- 相关系数:选择 斯皮尔曼
4. 数据结果与说明
(1) 检验结果
- 由下表可知,BMI与HOMA-R相关系数为0.252,与AL的相关系数为 -0.32;HOMA-R与AL相关系数为-0.190;
- 从相关系数上看,三者之间相关系数不大,但从p值上看,均有统计学意义
5. 语法:
***************** 正态检验 *******************.
EXAMINE VARIABLES=BMI HOMAR AL
/PLOT NPPLOT
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
***************** 相关检验 *******************.
NONPAR CORR
/VARIABLES=BMI HOMAR AL
/PRINT=SPEARMAN TWOTAIL NOSIG
/MISSING=PAIRWISE.
-----------------------------------------------------------------------------------------------------------------
示例3:某医院测量了72名胃癌患者基因异常书与临床分期等级情况,其中变量CP表示临床分期(1-一期,2-二期),gn表示异常基因数目,分析临床分析与基因遗传数目之间存在相关性。
1. 相关检验
(1) 打开 分析—相关—双变量
(2) 参数选择
- 相关系数:由于含有有序分类变量,选择 肯德尔
2. 数据结果与说明
(1) 检验结果
- 由下表可知,cp与gn的相关系数为0.295,其p=0.004<0.05,具有统计学意义。
- 说明基因异常数目的增加,胃癌患者的临床分期增高
3. 语法:
***************** 相关检验 *******************.
NONPAR CORR
/VARIABLES=cp gn
/PRINT=KENDALL TWOTAIL NOSIG
/MISSING=PAIRWISE.
免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com