spss因子分析和主成分分析(主成分分析PCA原理及SPSS实操)

主成分分析(principal components analysis,简称PCA)是一种降维分析,将多个指标转换为少数几个综合指标,由霍特林于1933年首先提出。

主成分分析方法之所以能够降维,本质是因为原始变量之间存在着较强的相关性,如果原始变量之间的相关性较弱,则主成分分析不能起到很好的降维效果,所以进行主成分分析前最好先进行相关性分析。

一个例子

中心城市的综合发展是带动周边地区经济发展的重要动力。因而,分析评价全国35个中心城市的综合发展水平,无论是对城市自身的发展,还是对周边地区的进步,都具有十分重要的意义。

原始数据及指标解释。我们选取了反映城市综合发展水平的12个指标,其中包括8个社会经济指标,分别为:—非农业人口数(万人);—工业总产值(万元);—货运总量(万吨);—批发零售住宿餐饮业从业人数(万人);—地方政府预算内收入(万元);—城乡居民年底储蓄余额(万元);—在岗职工人数(万人);—在岗职工工资总额(万元)。

4个城市公共设施水平的指标:—人均居住面积(平方米);—每万人拥有公共汽车数(辆);—人均拥有铺装道路面积(平方米);—人均公共绿地面积(平方米)。

问题:请使用主成分分析,将这12个指标综合为少出几个综合指标。

spss因子分析和主成分分析(主成分分析PCA原理及SPSS实操)(1)

在开始解决这个问题之前,有必要先了解一下主成分分析的基本原理及其求解方法。

主成分分析基本原理

1、几何意义

如下图所示,平面上散落着N个点,无论是沿x1轴方向,还是沿x2轴方向,均有较大的离散性,即这些点所代表的信息由两个指标x1,x2所决定,若只考虑x1和x2中的任何一个,原始数据中的信息均会有较大的损失。

spss因子分析和主成分分析(主成分分析PCA原理及SPSS实操)(2)

如果我们将坐标轴进行一个旋转操作,得到新的坐标轴y1和y2,如上图所示。则会发现这些点只在y1方向上有较大的离散性,即y1可以代表原始数据的绝大部分信息。

也就说原来需要2个指标才能表示的信息,经过一些处理后,变成只需要1个指标,而且不会损失太多的信息,即所谓的降维。

上述坐标旋转公式如下:

spss因子分析和主成分分析(主成分分析PCA原理及SPSS实操)(3)

从公式可以看出,坐标旋转本质上是线性变换,将原来的x1和x2,通过线性变换转换为y1和y2。

所以主成分分析其实就是将原来的指标进行线性变换,生成新的指标,下面介绍主成分分析更一般的数学模型。

以下提到的数学理论,不感兴趣可以略过,因为主成分分析一般都是通过工具(如SPSS)进行,不需要手动计算!

2、数学模型

主成分分析数学上的处理是将原始的p个变量作线性组合,作为新的变量。

spss因子分析和主成分分析(主成分分析PCA原理及SPSS实操)(4)

从上方可以看到,有几个原始变量,就会得到几个主成分

实际研究工作中,通常只挑选前几个方差最大的主成分,从而达到简化系统结构、抓住问题实质的目的。

如何求主成分及如何选择主成分?

从数学的角度看,求解主成分,其实就是根据数据源的协方差阵,求解特征根、特征向量的过程。

一个结论:主成分可以利用协方差阵的特征值对应的单位正交特征向量来表示。

说明:上述结论其实是一个数学定理,有严格的证明过程,感兴趣的同学可以参考相关书籍。

求出主成分后,如何选择主城分呢?我们引入贡献率,贡献率通过特征根的来表示。

spss因子分析和主成分分析(主成分分析PCA原理及SPSS实操)(5)

说明:上述λ其实就是特征根。

根据贡献率,一般要求累计贡献率达到80%以上就可以了。当然,这只是一个大体标准,具体选择几个要看实际情况。

从数学角度看,求解主成分的步骤分为以下4步。

spss因子分析和主成分分析(主成分分析PCA原理及SPSS实操)(6)

关于数据是否标准化

因为主成分分析涉及不同指标之间的运算,所以需要考虑数据的标准化。

  • 对于度量单位不同的指标或取值范围彼此差异非常大的指标,应该先将数据标准化,然后求协方差阵;
  • 对同度量或取值范围在同量级的数据,从协方差矩阵求解主成分。

说明:主成分本来是从协方差阵开始分析,如果从“相关系数矩阵”出发进行分析,相当于将原始数据标准化后,再从协方差阵进行主成分分析,即从相关系数矩阵出发进行主成分分析,则不需要单独进行数据标准化

实操:利用SPSS进行主成分分析

用SPSS进行主成分分析,主要分为以下3步。

1、将数据复制到SPSS中,选择菜单:分析-降维-因子分析,得到以下对话框

spss因子分析和主成分分析(主成分分析PCA原理及SPSS实操)(7)

说明:SPSS中没有单独的主成分分析选项,通过因子分析(另一种降维分析方法)中的主成分分析进行。

2、“描述”对话框中,勾选“系数”,即给出相关系数矩阵

spss因子分析和主成分分析(主成分分析PCA原理及SPSS实操)(8)

“抽取”对话框,默认就行。

spss因子分析和主成分分析(主成分分析PCA原理及SPSS实操)(9)

说明:这里通过相关系数矩阵判断原始变量的相关性。

3、单击“确定”,即可得出主成分分析的相关结论,SPSS会给出以下4个方面的结论

(1)相关系数矩阵

spss因子分析和主成分分析(主成分分析PCA原理及SPSS实操)(10)

由相关系数矩阵可以看出,原始变量之间的相关性还是不错的,至少部分变量之间如此,说明可以采用主成分分析。

(2)公因子方差

spss因子分析和主成分分析(主成分分析PCA原理及SPSS实操)(11)

公因子方差反映了本次主成分分析从每个原始变量提取的信息,即对每个原始变量的代表程度,可以看出,主成分对于大部分原始变量的代表程度还是不错,个别较低。

(3)总方差解释

spss因子分析和主成分分析(主成分分析PCA原理及SPSS实操)(12)

总方差解释反映了各个主成分的贡献率及累计贡献率,第三列表示贡献率,第四列表示累计贡献率,可以看到,提取前3个主成分,累计贡献率就可以达到87%以上,即这3个主成分集中了12个原始变量的87%的信息。

(4)成分矩阵(或因子载荷矩阵)

spss因子分析和主成分分析(主成分分析PCA原理及SPSS实操)(13)

成分矩阵(或因子载荷矩阵)反映了提取的3个主成分与原始变量的相关性,从上面可以得出以下结论:

  • 主成分1跟原始变量x1,x2,x3,...,x8的相关性较强;
  • 主成分2跟原始变量x10,x11,x12的相关性较强;
  • 主成分3跟原始变量x9的相关性较强。

对主成分进行解释:

  • 原始变量x1,x2,x3,...,x8反应的是城市规模和经济发展水平,所以主成分1命名为城市规模及经济水平
  • 原始变量x10,x11,x12反应的是城市基础设施,所以主成分2命名为城市基础设施
  • 原始变量x9反应的是城市人均居住面积,所以主成分3命名为城市人均居住面积

综上,通过主成分分析,将反应原始数据的12个指标综合为3个综合指标,分别为:

  • 城市规模及经济水平
  • 城市基础设施
  • 城市人均居住面积

从而起到了降维的作用。

你是否使用过主成分分析(PCA)呢?欢迎留言评论!

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页