数据特征分析方式(特征值和特征向量)

特征值和特征向量具有良好的性质,是线性代数中的重要概念之一,在多元统计分析方法中也具有重要的应用。

在数学上,特别是线性代数中, A为n阶矩阵,若数λ和n维非0列向量v,满足Av=λv,那么数λ称为A的特征值,v称为A的对应于特征值λ的特征向量

数据特征分析方式(特征值和特征向量)(1)

在多元统计中,特征值和特征向量主要在PCA主成分分析及FA因子分析中发挥作用。

主成分分析

  • 特征向量正交化保证了主成分之间具有两两互不相关的性质
  • 单位化使主成分表达式中线性组合的系数更加简单;
  • 主成分的方差等于构成线性组合的特征向量相应的特征值,特征值的总和与原始变量的方差的总和相等,表示所有的主成分恰好反映了所有原始变量的全部信息
  • 特征值在选取主成分的过程中通过限定方差贡献程度,控制包含较多信息的主成分。

特征向量之间是正交的。

特征值的总和=矩阵R的迹(主对角线元素的总和)=总方差。

特征值的乘积=矩阵的行列式值=广义方差。

因子分析

  • 特征值和特征向量用于对因子模型进行估计在对应分析中用于计算因子载荷矩阵

进一步解释特征值/向量的作用,本文假设一个双变量模型。

给定相关系数矩阵R,从中得出2对特征值和特征向量。

数据特征分析方式(特征值和特征向量)(2)

特征向量描述了这个椭圆的两条轴的方向。椭圆轴的半长和特征值的平方根是成比例的。所以,在2个变量时,特征值比较大的特征向量对应的就是长轴方向。因为这里只有2个维度,所以是一个平面图形。

原坐标系中,每个样本都对应了一个横纵坐标。现在,有了特征向量后,我们顺着特征向量的方向画两条新轴,也就是围绕椭圆建立新轴。因为轴心没有改变,所以每个样本与轴心的距离是不会改变的。改变的只有横纵坐标。

因为轴的顺序是按照特征值的大小排序的,所以在解释样本变异方向时,排序在前的轴重要性更高。

实例:

如下图,特征值总和都是2。但是每张图有不一样的特征值和特征向量。

数据特征分析方式(特征值和特征向量)(3)

左图:两个特征值很接近,因此椭圆的两条轴长度就相近。因此,样本的散落的位置接近于一个圆形。λ1稍微大一些,因此,红轴重要性稍微更高一些,我们可以推测可能存在一些负相关性,但也非常微小,接近于0,几乎不相关。

中间:λ1对应红轴,负方向。λ2对应绿轴,正方向。λ1>λ2,推断负相关是更加普遍的趋势,但是正相关也是存在的,所以这描述的是程度中等的负相关关系。

右图:λ1远大于λ2。说明红轴代表的正相关关系非常强烈,沿着绿轴可以发现,样本变异程度很小,因此推断,本样本间仍然以正相关关系为主。

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页