同时效度中皮尔逊积矩相关系数计算与应用(同时效度中皮尔逊积矩相关系数计算与应用)

在NSCA-CSCS测试中,同时效度是指测试得分与相同能力的其他公认的测试得分之间的相关程度,这种相关程度可以使用统计学上的皮尔逊积矩相关系数进行计算。例如,一种新的身体脂肪评估装置得分和双能X射线吸收仪器得分的皮尔逊积矩相关系数将提供了一种衡量测试同时效度的方法。

在统计学中,皮尔逊积矩相关系数(Pearson product-moment correlation coefficient,又称作 PPMCCPCCs, 常用r或Pearson's r表示)用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。在自然科学领域中,该系数广泛用于度量两个变量之间的相关程度。它是由卡尔·皮尔逊从弗朗西斯·高尔顿在19世纪80年代提出的一个相似却又稍有不同的想法演变而来。这个相关系数也称作“皮尔森相关系数r”。

定义

两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商: [1]

同时效度中皮尔逊积矩相关系数计算与应用(同时效度中皮尔逊积矩相关系数计算与应用)(1)

上式定义了总体相关系数,常用希腊小写字母ρ(rho) 作为代表符号。估算样本的协方差和标准差,可得到样本相关系数(样本皮尔逊系数),常用英文小写字母 r 代表:

同时效度中皮尔逊积矩相关系数计算与应用(同时效度中皮尔逊积矩相关系数计算与应用)(2)

r 亦可由

同时效度中皮尔逊积矩相关系数计算与应用(同时效度中皮尔逊积矩相关系数计算与应用)(3)

样本点的标准分数均值估计,得到与上式等价的表达式:

同时效度中皮尔逊积矩相关系数计算与应用(同时效度中皮尔逊积矩相关系数计算与应用)(4)

其中

同时效度中皮尔逊积矩相关系数计算与应用(同时效度中皮尔逊积矩相关系数计算与应用)(5)

分别是对

同时效度中皮尔逊积矩相关系数计算与应用(同时效度中皮尔逊积矩相关系数计算与应用)(6)

样本的标准分数、样本平均值和样本标准差。

数学特性

总体和样本皮尔逊系数的绝对值小于或等于1。如果样本数据点精确地落在直线上(计算样本皮尔逊系数的情况),或者双变量分布完全在直线上(计算总体皮尔逊系数的情况),则相关系数等于1或-1。皮尔逊系数是对称的:corr(X,Y)=corr(Y,X)。

皮尔逊相关系数有一个重要的数学特性是,因两个变量的位置和尺度的变化并不会引起该系数的改变,即它该变化的不变量(由符号确定)。也就是说,我们如果把X移动到a bX和把Y移动到c dY,其中a、b、c和d是常数,并不会改变两个变量的相关系数(该结论在总体和样本皮尔逊相关系数中都成立)。我们发现更一般的线性变换则会改变相关系数:参见之后章节对该特性应用的介绍。

由于μX= E(X), σX= E[(X−E(X))] =E(X)−E(X),Y也类似, 并且

同时效度中皮尔逊积矩相关系数计算与应用(同时效度中皮尔逊积矩相关系数计算与应用)(7)

故相关系数也可以表示成

同时效度中皮尔逊积矩相关系数计算与应用(同时效度中皮尔逊积矩相关系数计算与应用)(8)

对于样本皮尔逊相关系数:

同时效度中皮尔逊积矩相关系数计算与应用(同时效度中皮尔逊积矩相关系数计算与应用)(9)

以上方程给出了计算样本皮尔逊相关系数简单的单流程算法,但是其依赖于涉及到的数据,有时它可能是数值不稳定的。

数据分布的敏感度存在性

总体皮尔逊相关系数被定义成矩, 因此任意的双变量概率分布是非零的, 也就是说总体协方差和边缘总体方差是由定义的。 一些概率分布, 诸如柯西分布有未定义的方差,因此XorY如果服从这种分布,ρ便是未定义的。 在实际应用中, 如果有数据被怀疑服从重尾分布, 这个条件就需要引起重视。 然而, 相关系数的存在性通常并需要太介意; 例如, 如果分布是有界的, ρ 便总是有意义的。

大样本的特性

在双变量正态分布的案例中, 只要边缘均值和方差是已知的,总体相关系数描述的是便是联合分布。 在其他的双变量分布中,这个结论并不正确。 总之, 不论两个随机变量的联合分布是不是正态的,相关系数在研究的它们之间的线性依赖性都是有帮助的。样本相关系数是对两个正态分布变量总体相关系数的最大似然估计并且是渐进无偏的 和有效的, 这也就是说如果数据是正态的并且样本容量是中等的或大量的,就不可能构造出一个比样本相关系数更准确地估计。对于非正态的数据, 样本相关系数大致上是无偏的,但有可能是无效的。 只要样本均值、方差和协方差是一致的(当大数定理可以应用的情况下),样本相关系数是总体相关系数的一致估计。

稳健性

与其他常用的统计指标相似的, 样本指标r不是稳健的。因此如果由异常值,这个指标是有误导性的。特别的, PMCC 既不是稳健分布的,也不是异常值稳健的(seeRobust statistics#Definition)。 对XY的散点图的观察可以很明显的揭示出缺乏稳健性的情况,在这种情况下,采用的联合的方法是比较明智的。 注意到,虽然大多数稳健的估计器从某种程度上说都是有统计依赖的, 它们总的来说,在总体相关系数的尺度上都是可辨的。

基于皮尔逊相关系数的统计推断对数据分布式敏感的。 如果数据大致是正态分布的,可以使用精确检验和基于Fisher变换的渐进检验,但是它们可能由误导性。 在一些情况下,自助采样可以用来构造置信区间。 同时,重复抽样可以应用在假设检验中。 这些非参数化的方法在某些情况下,如双变量正态分布不能保证时,可能得出更有意义的结论。 然而,这些方法的标准形式依赖于数据的可交换性。这也就意味着被分析的数据时没有顺序地和组别的。因为这有可能会影响估计相关系数的特性。

分层分析是一种容许缺少双变量正态性的方法,或者说是用来隔离相互关联因素的关联结果。 如果W代表聚类成员或者其它需要被控制的因素,我们可以分离基于W的数据, 然后我们可以再每个层里计算相关系数。 当我们控制变量W,我们便能在层的等级上估计与所有相关系数相关的各自的相关系数。

强噪声条件下

强噪声条件下,提取相关系数两个随机变量之间的是平凡的,特别是在典型相关分析报告在退化的相关值的情况下,由于存在大量噪声。一种概括的方法在其他地方给出。

维基百科中相关条目
  • 相关
  • 史匹曼等级相关系数
  • 相关
  • Disattenuation
  • Maximal information coefficient

参考资料:

  • 1. L. Rodgers and W. A. Nicewander. Thirteen ways to look at the correlation coefficient. The American Statistician, 42(1):59–66, February 1988.
,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页