SAS学习系列33. 主成分分析 下载本文

内容发布更新时间 : 2024/5/19 5:12:48星期一 下面是文章的全部内容请认真阅读。

33. 主成分分析

(一)原理

一、基本思想

主成份分析,是数学上对数据降维的一种方法,是将多个变量转化为少数综合变量(集中了原始变量的大部分信息)的一种多元统计方法。其主要目的是将变量减少,并使其改变为少数几个相互独立的线性组合形成的新变量(主成份,其方差最大),使得原始资料在这些成份上显示最大的个别差异来。

在所有的线性组合中所选取的F1应该是方差最大的,称为第一主成分。如果第一主成分不足以代表原来所有指标的信息,再考虑选取第二个线性组合F2, 称为第二主成分。为了有效地反映原有信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0. 依此类推可以构造出第三、第四、…、第p个主成分。

主成份分析,可以用来综合变量之间的关系,也可用来减少回归分析或聚类分析中的变量数目。

二、基本原理

设有n个样品(多元观测值),每个样品观测p项指标(变量):X1,?,Xp,得到原始数据资料阵:

其中,Xi = (x1i,x2i,?,xni)T,i = 1, …, p.

用数据矩阵X的p个列向量(即p个指标向量)X1,?,Xp作线性组合,得到综合指标向量:

简写成:

Fi = a1iX1 + a2iX2 +…+apiXpi = 1, …, p

限制系数ai = (a1i,a2i,?,api)T为单位向量,即

且由下列原则决定:

(1)Fi与Fj互不相关,即COV(Fi, Fj)=aiT∑ai=0,其中∑为X的协方差矩阵;

(2)F1是X1,X2,?,Xp的所有满足上述要求的线性组合中方差最大的,即

F2是与F1不相关的X1,?,Xp所有线性组合中方差最大的,?,Fp是与F1,?,Fp-1都不相关的X1,?,Xp所有线性组合中方差最大

的。

满足上述要求的综合指标向量F1,F2,?,Fp就是主成分,这p个主成分从原始指标所提供的信息总量中所提取的信息量依次递减,每一个主成分所提取的信息量用方差来度量,主成分方差的贡献就等于原指标相关系数矩阵相应的特征值λi,每一个主成分的组合系数

ai = (a1i,a2i,?,api)T

就是特征值λi所对应的单位特征向量。方差的贡献率为

αi越大,说明相应的主成分反映综合信息的能力越强。

注:主成分分析是将原始变量组成的坐标系进行平移变换,使得新的坐标原点和数据群点的重心重合。新坐标第一轴与数据变化最大方向对应。F1,F2,?,Fp可以理解为p维空间中互相垂直的p个坐