![人工智能:模式识别](https://wfqqreader-1252317822.image.myqcloud.com/cover/23/33381023/b_33381023.jpg)
2.4 二维主成分分析
众所周知,主成分分析(PCA)是线性特征抽取的最为重要的技术之一,广泛应用在人脸等图像识别领域。采用主成分分析技术进行人脸识别的最为著名的方法是Turk和Pentland所提出的Eigenfaces[23]方法(特征向量转化为图像显示,像一张人脸,故称为特征脸,即Eigenfaces)。尽管Eigenfaces方法在性能上有着不错的表现,但其弱点也是明显的。这是因为传统的PCA是基于图像向量的,图像向量的维数常常高达上万维。尽管利用奇异值分解定理可在一定程度上加速St的特征向量的求解速度,但整个特征抽取过程所耗费的计算量还是相当可观的。
受Liu[24]代数特征抽取思想的启发,本节提出了一种直接基于图像矩阵的PCA方法:二维主成分分析(Two-Dimensional PCA,2DPCA)[25,26]。该方法在处理图像识别问题时,不需要事先将图像矩阵转化为图像向量,而是直接利用图像矩阵本身构造所谓的图像总体散布矩阵,然后取它的d个最大特征值所对应的标准正交的特征向量作为投影轴即可。在标准人脸图像库上的试验结果表明,所提出的方法不仅在识别性能上优于基于传统PCA的Eigenfaces方法,而且大幅度提升了特征抽取的速度。
设X为一个m×n型的图像矩阵,ζ为一个n维单位列向量,我们的思想是将X通过以下线性变换直接投影到ζ上。
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_53_1.jpg?sign=1739518710-iFGSo15aHwV0rHIGtbpaoWRLaV2BK0WS-0-00a6e1381ed91681ae9b9d751c58ccb3)
于是,得到一个m维列向量Y,称为图像X的投影特征向量。那么,究竟往哪个方向投影呢?事实上,可以通过投影特征Y的散布情况来决定投影方向ζ。在此,我们采用以下准则
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_53_2.jpg?sign=1739518710-yLThZo7uQxaQ2QFpCuiEiPrebcCYklPa-0-f6a5b4817ee580878da65ec064427e1c)
式中,Sy表示投影特征Y的总体散布矩阵。最大化准则式(2-57)的直观意义是,我们将寻找这样的投影方向ζ,使得投影后所得特征向量的总体散布量最大。Sy可表示为
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_53_3.jpg?sign=1739518710-V2fwC5XUwJsz4VARX5La9fPfHypsE8vO-0-b2840d3cee032dcb2a8c5430f002917a)
则总体散布量为
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_53_4.jpg?sign=1739518710-1yWmsRVJWcwKx53RySR6oCB3qhgbUCjo-0-e17e85ccc1ba25aaa3ec9fcc4e5ec356)
定义以下的图像总体散布矩阵
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_53_5.jpg?sign=1739518710-h6XfCqlptSgpGsLKOmcGvbM7LSSB2Ylx-0-9ba46d2f7350d7d0bda9662ee596f885)
由此定义,易证明Gt为n×n型的非负定矩阵。
故式(2-57)中的准则函数为
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_54_1.jpg?sign=1739518710-b8VuUehPmF0CDtnl8cyH5tHgAkF2n7Ps-0-6fdd815e5060a57e552e2c18eceb0c20)
该准则称为广义总体散布量准则。最大化该准则的单位向量ζ称为最优投影轴,其物理意义是,图像矩阵在ζ方向上投影后所得特征向量的总体分散程度最大。事实上,该最优投影轴即图像总体散布矩阵Gt的最大特征值所对应的单位特征向量。
一般来说,在样本类别数较多的情况下,单一的最优投影方向是不够的,我们希望寻找一组满足标准正交条件且极大化准则函数式(2-61)的最优投影轴ζ1,…,ζd。
由于准则函数式(2-61)等价于
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_54_2.jpg?sign=1739518710-OOZJGzA5WWMgJxo5MUlhqEHbIjVHUUZk-0-1d578bbc1f0ab4e2b7626dc52d320ddc)
式(2-62)即为矩阵Gt的瑞利商,由瑞利商的极值性质[14],最优投影轴ζ1,…,ζd可取为Gt的d个最大特征值所对应的标准正交的特征向量。具体地讲,设Gt的特征值满足λ1≥λ2≥…≥λn,且对应的标准正交的特征向量为ζ1,…,ζn,则最优投影轴取为前d个ζ1,…,ζd。
基于最优图像投影轴ζ1,…,ζd,令
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_54_3.jpg?sign=1739518710-SZp6sk7btItlUpOyxyizfUpwzCZkcWHV-0-932b6d589320db774fcba776ae9f5bbf)
则得到一组m维图像投影特征向量Y1,…,Yd,它们可合并为图像X的一个N=md维整体投影特征Y:
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_54_4.jpg?sign=1739518710-DWxBA9fiNvWG9nq36r5pEV0hJnMS8Bjr-0-1a22f399f3c7396995253cff7a608706)
Y可以用于随后的分类识别。
接下来介绍基于2DPCA的图像重建。
在特征脸方法中,由特征脸和主成分的加权组合可以重构人脸图像。类似地,2DPCA也可以实现人脸图像的重建。
设ζ1,…,ζd为2DPCA的一组标准正交的投影轴,图像X在这组投影轴上投影后,得到图像投影特征向量为Yk=Xζk(k=1,2,…,d)。令
V=[Y1,…,Yd],U=[ζ1,…,ζd]
则有
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_55_1.jpg?sign=1739518710-pa9Apw1A1vp3FKaVC4eaNroA8jedM0by-0-886c8b2ca1b503d4e785a770ed3675b2)
由于ζ1,…,ζd是标准正交的,由式(2-65)容易得到图像X的重建图像:
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_55_2.jpg?sign=1739518710-9XdSFsw9B1yI9hEzknUXzLoy2HdYozR9-0-e15bd5bae95812aac60507a3a53815d6)
每个,与图像X具有相同的大小,构成X的重建子图,通过这些子图的相加可以近似地重建图像X。若选取d=n个主成分向量,其中n是Gt的特征值的总个数,则有
,即实现X的无损重建。否则,若d<n,重建图像
是原始图像X的近似。