2.1 主成分分析_人工智能：模式识别-QQ阅读女生仙侠网

人工智能：模式识别

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

上一章目录下一章

2.1 主成分分析

主成分分析（Principal Component Analysis，PCA），也称主分量分析，或K-L变换（Karhunen-Loeve Transform）^[1]。下面对PCA方法进行介绍。

2.1.1 基本概念

设X为一个N维随机向量，S_t为X的N×N协方差矩阵：

式中，E（X）是随机向量X的数学期望。该协方差矩阵也称总体散布矩阵。容易证明S_t为非负定矩阵。

给定一组M个N维训练样本X₁，…，X_M，则S_t的估计为

式中，m₀为训练样本的均值向量，即

寻求一组标准正交且使得以下准则函数达到极值的向量ϕ作为投影轴：

其物理意义是使投影后所得特征的总体散布量最大。就每一个投影轴而言，模式样本在该轴上投影后，投影点的方差最大。

事实上，这一组最优投影轴应取为S_t的d个最大特征值所对应的标准正交的特征向量ϕ₁，…，ϕ_d。令Φ=（ϕ₁，…，ϕ_d），则PCA变换如下：

Y作为X的特征表示，用于后续的分类或其他任务。从几何上讲，PCA变换是一个坐标变换，即Y是原始的模式向量X在一个新的、由标准正交的特征向量ϕ₁，…，ϕ_d构成的坐标系中的坐标。

2.1.2 最小均方误差逼近

PCA变换是最小均方误差逼近意义下的最优表示。

设ϕ₁，…，ϕ_d，…，ϕ_N为S_t的一组标准正交的特征向量，对应的特征值满足λ₁≥…≥λ_d≥…≥λ_N。由式（2-4）可得

易证明，是零均值随机向量X在最小均方误差逼近意义下的最优表示，换言之，它表示的均方误差比采用其他任何正交系统的d个坐标来展开X所引起的均方误差都要小。

一般地，模式X的样本均值m₀未必为0，PCA变换式（2-4）可以修改如下：

模式样本X可以在最小均方误差逼近意义下重构如下：

式中，，i=1，…，d。

2.1.3 PCA变换的统计不相关性

PCA变换后，模式样本的PCA特征分量之间是统计不相关的。

设线性变换Y=Φ^TX，其中，Φ=（ϕ₁，…，ϕ_d），ϕ₁，…，ϕ_d为PCA的一组最优投影轴。原始特征向量X变换为Y=（y₁，…，y_d）^T，其第i个分量为，i=1，…，d。则y_i与y_j之间的协方差为

故y_i与y_j的统计相关系数可表达为

由于ϕ₁，…，ϕ_d为S_t的标准正交的特征向量，，i≠j。故ρ（y_i，y_j）=0，i≠j，即PCA变换后，模式样本的特征分量之间是统计不相关的。

2.1.4 小样本情况下的主成分分析

在训练样本的总数M小于训练样本的维数N的情况下，为了提高计算效率，常常借助于奇异值分解定理间接地求解S_t的特征向量。具体做法介绍如下^[1，2]。

定理2-1 （奇异值分解定理）设A是一个秩为r的N×M矩阵，则存在两个正交矩阵

U=[u₁,…,u_r]∈R^N^×^r, U^TU=I

和

V=[v₁,…,v_r]∈R^M^×^r,V^TV=I

以及对角矩阵

Λ=diag[λ₁,λ₂,…,λ_r]∈R^r^×^r,λ₁≥λ₂≥…≥λ_r＞0

使得

上述分解称为矩阵A的奇异值分解，为A的奇异值。

由定理2-1，易得出以下结论，即推论2-1。

推论2-1λ_i为AA^T和A^TA非零特征值，u_i和v_i分别为AA^T和A^TA对应于λ_i的特征向量，且满足

式（2-10）写成矩阵形式为。

在主成分分析方法中，对于总体散布矩阵S_t，令A=[X₁-m₀，X₂-m₀，…，X_M-m₀]，则有

当N＞M时，可以先求出矩阵所对应的特征值和特征向量，然后利用式（2-10）算出S_t的特征向量，从而降低直接求解的计算复杂度。

上一章目录下一章