多变量相关分析(相关分析之双变量相关)

序曲

咏柳

【宋】曾巩

乱条犹未变初黄,倚得东风势便狂。

解把飞花蒙日月,不知天地有清霜。

这首诗把柳絮飞花的景色写得十分生动。柳絮在东风相助之下,狂飘乱舞,铺天盖地,似乎整个世界都是它的了。抓住了事物的特色,使之性格化了,使人看到一个得志便猖狂的形象。

"未变初黄",准确地点出了早春季节,此时柳树枝上刚吐新芽,正是"且莫深育只浅黄"的新柳。 第一、二句写凌乱柳枝凭借东风狂飘乱舞,第四句以"不知"一词,对柳树的愚蛮可笑加以嘲讽。 诗中把柳树人格化的写法,以及诗人对柳树的明显的贬抑与嘲讽,使这首诗不是纯粹地吟咏大自然中的柳树。 咏柳而讽世,针对的是那些得志便猖狂的势利小人。 将状物与哲理交融,含义深长,令人深思

双变量相关分析

线性相关性质可由散点直观地观察,如下图所示:

多变量相关分析(相关分析之双变量相关)(1)

在我们看相关时,通常会采用线性相关系数表示相关的大小,一般用 r 表示,相关系数r是一个无单位的量值,其大小在 -1<=r<=1;具有以下特征:

  • r >0 为正相关, r < 0 为负相关
  • | r | 接近于1,说明相关性越好

既然有相关系数有大小,那怎么来看相应大小呢?一般来说:

  • |r|<0.3 不存在线性关系
  • 0.3<|r|<0.5 低度线性关系
  • 0.5<|r|<0.8 显著线性关系
  • |r|>0.8 高度线性关系

在SPSS中,提供了三个相应的检验方法,包括皮尔逊、肯德尔、斯皮尔曼,三者具体差别与应用场景。

  • 皮尔逊 Pearson:用于两个连续性变量之间相关性,其条件:必须符合正态分布
  • 肯德尔 Kendall tau-b:用于反映分类变量一致性指标,只能在两个变量均为有序分类时使用
  • 斯皮尔曼 Spearman:用于两种情况: (1) 不满足Pearson相关条件 (2) 两个变量至少有一个等级变量
SPSS实现双变量相关分析

示例1:某地10名一年级女大学生的胸围(cm)与肺活量(L) ,分析两者之间有无线性相关关系。

1. 数据录入:

· 在SPSS的"变量视图"中设置二个变量,x代表胸围(cm);y代表肺活量。

多变量相关分析(相关分析之双变量相关)(2)

2. 正态性检验

(1) 打开 分析—描述性—探索

多变量相关分析(相关分析之双变量相关)(3)

(2) 正态检验结果

多变量相关分析(相关分析之双变量相关)(4)

  • 胸围/肺活量的P值分布为 0.2/0.12,均 大于0.05,所以符合正态分布检验

3. 相关检验

(1) 打开 分析—相关—双变量

多变量相关分析(相关分析之双变量相关)(5)

(2) 参数选择

多变量相关分析(相关分析之双变量相关)(6)

  • 变量:估计相关系数的变量,至少两个及以上变量,必须选项
  • 相关系数:包括三个选项,皮尔逊相关系数为默认
  • 显著性检验:如果了解变量间是正相关或负相关,应选择 双侧检验 单选按钮;否则,选择 单侧检验 按钮
  • 标记显著相关性:突出标记有统计意义的相关系数,输出结果中用 * 标记 p<0.05的相关系数,用 ** 标记 p<0.01的相关系数
  • 统计:说明各类统计描述,包括输出每个变量的均值和标准差等统计量;缺失值处理方式

4. 数据结果与说明

(1) 数据基本描述

  • 包括平均值和标准差,以及样本数。

多变量相关分析(相关分析之双变量相关)(7)

(2) 检验结果

  • 由下表可知,相关系数为0.504,p=0.138,无统计学意义

多变量相关分析(相关分析之双变量相关)(8)

5. 语法:

***************** 正态检验 *******************. EXAMINE VARIABLES=x y /PLOT NPPLOT /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL. ***************** 相关检验 *******************. CORRELATIONS /VARIABLES=x y /PRINT=TWOTAIL NOSIG /STATISTICS DESCRIPTIVES /MISSING=PAIRWISE.

---------------------------------------------------------------------------------------------------------------------------------

示例2:某医师收集并测定95例糖尿病患者的体重指数BMI、HOMAR指数、A/L比值等指标,分析指标之间的相关性。

1. 数据录入:

  • 在SPSS的"变量视图"中设置三个变量,体重指数BMI、HOMAR指数、A/L比值。

多变量相关分析(相关分析之双变量相关)(9)

2. 正态性检验

(1) 打开 分析—描述性—探索

(2) 正态检验结果

多变量相关分析(相关分析之双变量相关)(10)

  • 由上表可看出,BMI呈正态分布,而HOMA-R/AL不呈正态分布

3. 相关检验

(1) 打开 分析—相关—双变量

多变量相关分析(相关分析之双变量相关)(11)

(2) 参数选择

  • 相关系数:选择 斯皮尔曼

4. 数据结果与说明

(1) 检验结果

  • 由下表可知,BMI与HOMA-R相关系数为0.252,与AL的相关系数为 -0.32;HOMA-R与AL相关系数为-0.190;
  • 从相关系数上看,三者之间相关系数不大,但从p值上看,均有统计学意义

多变量相关分析(相关分析之双变量相关)(12)

5. 语法:

***************** 正态检验 *******************. EXAMINE VARIABLES=BMI HOMAR AL /PLOT NPPLOT /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL. ***************** 相关检验 *******************. NONPAR CORR /VARIABLES=BMI HOMAR AL /PRINT=SPEARMAN TWOTAIL NOSIG /MISSING=PAIRWISE.

-----------------------------------------------------------------------------------------------------------------

示例3:某医院测量了72名胃癌患者基因异常书与临床分期等级情况,其中变量CP表示临床分期(1-一期,2-二期),gn表示异常基因数目,分析临床分析与基因遗传数目之间存在相关性。

多变量相关分析(相关分析之双变量相关)(13)

1. 相关检验

(1) 打开 分析—相关—双变量

多变量相关分析(相关分析之双变量相关)(14)

(2) 参数选择

  • 相关系数:由于含有有序分类变量,选择 肯德尔

2. 数据结果与说明

(1) 检验结果

  • 由下表可知,cp与gn的相关系数为0.295,其p=0.004<0.05,具有统计学意义。
  • 说明基因异常数目的增加,胃癌患者的临床分期增高

多变量相关分析(相关分析之双变量相关)(15)

3. 语法:

***************** 相关检验 *******************. NONPAR CORR /VARIABLES=cp gn /PRINT=KENDALL TWOTAIL NOSIG /MISSING=PAIRWISE.

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页