快速检索        
  武汉大学学报·信息科学版  2015, Vol. 40 Issue (5): 583-587

文章信息

熊维, 张乐飞, 杜博
XIONG Wei, ZHANG Lefei, DU Bo
一种基于多维正交判别子空间投影的人脸识别方法
A Multilinear Discriminant Subspace Projection with Orthogonalization for Face Recognition
武汉大学学报·信息科学版, 2015, 40(5): 583-587
Geomatics and Information Science of Wuhan University, 2015, 40(5): 583-587
http://dx.doi.org/10.13203/j.whugis20130442

文章历史

收稿日期:2013-08-29
一种基于多维正交判别子空间投影的人脸识别方法
熊维 , 张乐飞 , 杜博    
武汉大学计算机学院, 湖北 武汉, 430072
摘要:人脸识别中,传统数据降维方法将人脸图像重排列成向量后进行处理,丢失了数据本身的结构特性,导致识别精度不高。本文发展了一种基于张量的数据降维方法——多维正交判别子空间投影。该算法直接用张量描述人脸,并通过张量到矢量投影(tensor to vector projection,TVP)将张量数据投影到向量判别子空间。此方法寻找相互正交的投影向量集,使得判别子空间中数据类间离散度最大,同时类内离散度最小;进而利用TVP投影将高维张量数据映射成低维向量数据,在合适的约束条件下,这些降维后的向量特征数据是整个人脸数据中最具代表性的特征数据;最后,使用k最近邻(KNN)分类器将这些特征数据分类。利用经典人脸数据库ORL进行实验,验证了本文方法的有效性。
关键词张量     降维     子空间投影     人脸识别    
A Multilinear Discriminant Subspace Projection with Orthogonalization for Face Recognition
XIONG Wei, ZHANG Lefei , DU Bo    
School of Computer, Wuhan University, Wuhan 430072, China
Abstract:Traditional dimensionality reduction methods in face recognition are methods that reshape tensor face into a vector, which may lose the structural characteristics of the original data, leading to a relatively low identification result. We present a dimensionality reduction method——multilinear discriminant subspace projection (MDSP) based on tensor. Our algorithm aims to use tensor to describe face data directly, and project the tensor data onto the vector discriminant subspace through a new kind of projection method——tensor to vector projection (TVP). To reach this target, the algorithm first finds out the projection vectors (PV) that make data in the discriminant subspace get the maximum between-class scatter as well as the minimum within-class scatter. Then with the help of PV, tensor data can be projected into the low dimensional vector data. As long as proper constraints are given, the vector data can be the most representative feature data. The feature data is then sent to the KNN classifier for classification. Results in experiments on databases ORL confirm the veracity of our algorithm.
Key words: tensor     dimensionality reduction     discriminant subspace     face recognition    

人脸识别中,数据降维[1]是一种重要的数据分析方法。它将高维数据映射成低维数据,达到去除数据冗余、提高分类精度的目的。数据降维包括监督方法和非监督方法。监督方法中,具有代表性的是主成分分析[2](PCA),它的主要思想是用较少的综合变量来代替原来较多的变量,并尽可能多地表示原来数据的方差能量。非监督方法中,具有代表性的是线性判别分析[3](LDA),其在特征映射过程中引入判别信息,使得数据的类间距离最大,同时,类内距离最小。

然而,将上述算法直接用于人脸识别时,算法精度并不能完全满足当前研究和应用的需求。其原因之一是,灰度人脸图像本质上是二维矩阵而并不是一维向量,上述特征降维算法都是先将二维人脸图像数据重排列成一维向量进行处理,这无疑丢失了数据之间的结构特性和局部关联性。如果能够直接对二维矩阵本身进行处理,那么,其自带的关联性对人脸分类将会非常有利。

基于上述想法,人们提出了基于张量的数据降维方法。张量是一个定义在一些向量空间和一些对偶空间的笛卡儿积上的多线性函数,文献[4\|8]给出了张量定义以及基本运算。近年的张量降维方法中,文献[4]提出了多线性主成分分析(MPCA)[4]法,这种方法将PCA用张量的形式重新表达,在一定程度上保留了原数据的局部关联性,能提取出更好的特征,但没有很好地利用数据自带的监督信息。文献[5]提出了广义张量判别分析(GDTA),这种方法对LDA方法进行改进,使用张量到矢量投影(TTP)方式[5],直接把原始张量数据投影到张量子空间,保留了数据的结构特性,同时引入监督信息,提高了分类精度。然而GTDA算法中未加入正交约束,这使得其无法获得最佳的数据投影效果。

为了解决上述问题,本文发展了一种基于张量的数据降维方法——多维正交判别子空间投影(multilinear discriminant subspace projection,MDSP )。该方法旨在构造出用于处理张量数据的多维线性降维方法。原始人脸图像被视为二阶张量作为MDSP算法的数据输入,通过求解构造出的目标函数的最优值,得到目标投影矩阵;二阶人脸张量经过投影矩阵的投影变换,被转化为正交的低维特征向量。这种把张量数据投影到向量空间的投影方式叫作张量到矢量投影(tensor to vector projection,TVP)[6]。MDSP算法同时给出了目标函数的约束条件,保证了在低维特征空间中不同类别的样本之间距离最大,同时,相同类别的样本之间距离最小,达到了保留数据空间特性和局部相关性的目的。本文主要贡献如下。

1) 发展了一种基于张量的MDSP方法,将人脸图像视为张量直接进行特征降维,而不是先重排列成向量再处理,保存了数据本身的结构和拓扑特性。

2) 加入了一种新的投影方法——TVP方法,不同于传统的向量到向量投影(VVP)方法和TTP方法,这种投影方法是将张量数据投影到向量判别子空间,由张量数据得到向量数据。

3) 将判别子空间方法用于张量空间,同时在张量子空间中加入正交约束。本文方法利用原始数据中的监督信息从张量数据中提取出不相关的判别特征,这些特征的特点为:类内离散度最小且类间离散度最大,数据特征之间相互正交。

4) 理论分析了算法的收敛性,并用实验加以验证。

1 多维正交判别子空间投影

MDSP通过求解合适的投影向量集(projection vector set,PV),把原始张量数据通过TVP方法投影到向量判别子空间,得到投影后的特征降维数据及相应的投影向量集,最后把原始数据通过投影向量集进行特征映射得到降维数据,并输入分类器进行分类[6]

本文方法对M个张量样本进行处理。第m个样本X m∈RI1×I2×…×IN(m = 1,2,… ,M)将被TVP投影成P维向量 y m。算法整体思路为:首先利用MDSP方法决定出当前样本的P个投影向量集PV,其中第p个投影向量集包含N个长度不一的投影向量,具体表达为PVp= u(n)Tp Nn=1,u (n)p∈RIn,p= 1,2,… ,P。利用这P个PV,采用TVP方法进行投影,得到投影后的向量 y m∈RP,0m的第p个元素为 y mp。其数学表示为:

为了量化投影效果并求出效果最好的投影向量集,本文方法定义了降维后的数据的类间离散度SBp和类内离散度SWp以及衡量投影效果的准则函数Fp,其中,p=1,2,…,P。SBp为所有降维后的样本经过第p个PV投影后的结果的类间离散度,SWp为所有降维后的样本经过第p个PV投影后的结果的类内离散度。Fp为降维后样本在第p个PV投影下的判别函数。

式中,C是样本的类别数;Nc是第c个类别的样本数;cm为第m个训练样本的类别标签;,p = 1,2,… ,P。

为了获得最好的投影效果,投影后的数据类间离散度应当最大,并且类内离散度应该最小,即需寻找合适的PV以最大化Fp,这等价于求解如下优化问题:

同时,为了使投影后得到的特征向量彼此正交,引入了基向量gp。令gp为第p个基向量,其中,gp的第m个元素为gp(m)= y mp,m = 1,2,… ,M。使用这些基向量构造出式(5)的约束条件:

其中,

使用一种迭代的方式求解PVp中的第n*个投影向量u(n*)p。首先随机初始化PVp中所有的投影向量,然后开始迭代过程。假定PVp中的其他值 {u(n)Tp,n≠n*}都已经在上一次迭代中求出,则固定这N-1个投影向量的值不变,通过改变第n*个投影向量u(n*)p的值,使得Fp最大。这个过程中,数据之间的正交约束需要被保留。

通过上述分析,对 u (n*)p的求解可以转化为对如下优化问题的求解:

其中,

通过特征分解的方法求解出式(6),可得最优化的 u (n*)p,然后通过迭代的方式,改变n*的值,重复上述过程,可求出PVp中所有的投影向量,这样就求出了最优化的PVp。利用相同的方法求 出PV中所有的P个投影向量集合,再利用TVP投影,很容易求出降维后的向量集。

原始张量数据经过MDSP算法降维后得到的数据集作为分类器的训练集,而测试数据(不同于用来生成训练集的原始张量数据)通过投影向量集的映射,得到分类器的测试集。利用分类器k最近邻(KNN)[9]对测试集进行分类,得到测试集中每个样本的类别标签,同时统计出分类的正确率。

在求解PVp的过程中,使用了循环迭代的方法实现优化函数的求解,其收敛性问题直接制约算法的最终分类效果,因此分析其收敛性十分必要。

式(5)给出了总目标函数,这是一个多变量(变量为PVp,是包含多个向量的向量集)的非凸优化问题,目前还没有直接求解出其全局最优解的方法,因此本文采用了迭代的方式求取局部最优解。而在PVp中的第n*投影向量的求解中,其优化过程(式(6))是一个多变量的凸优化问题,通过特征分解可以得到其全局最优解。类似的文献[5]已经证明,这种迭代算法能够保证每次迭代过程中式(5)给出的总目标函数值是单调递增的,并且总目标函数值具有有界性(具体到本文的问题,目标函数值具有上界),因此,本文采取的方法能够保证收敛到局部最优解。实验部分将具体分析式(5)中的目标函数值与迭代次数的关系,并证明算法确实收敛到很好的状态。

2 实验与分析

本文在公开的基准人脸测试数据库ORL[10]上采用MDSP、PCA、LDA等算法对原始数据进行降维,利用KNN对降维后的数据分类,比较分析了实验结果,并分析了算法的收敛性。

2.1 ORL人脸数据库实验结果

ORL数据库包括40个人共400张人脸图像,每人10张灰度图像。实验时,对每一类人脸,随机挑选不同数量(分别为5和6)的图像用于训练,剩下的图像用于测试实验精确度。每一组实验被反复执行10次。取KNN中的最邻近参数K为3,并变化降维的子空间维度P,得到了每个方法的平均识别率和子空间维数的关系图(见图 1)。根据经验数据,子空间维度过大对于分类效果提升不明显,因此,本文取子空间维数P从1变化到101,步长为5。由于ORL数据库只有40个类别,因此,使用LDA方法降维输入的高维数据只能被降成39维或以下。KNN方法不涉及到降维,为了更加直观,在图 1中用一条水平线表示KNN的精度(K取3)。从图 1中可以看出,本文提出的方法在子空间维度相同时,明显优于对比方法。对于每个方法,选择使得该方法达到最好的识别精度的子空间维度,重复实验,表 1展示了每个方法的最好实验结果。

图 1 在ORL数据库上识别率和子空间维度的关系 Fig. 1 Relationship Between Accuracy and Dim of Subspace
表 1 K=3时 ORL数据库上的最高识别率 Tab. 1 The Best Accuracy on ORL Dataset
方法每类5个训练样本 每类6个训练样本
MDSP+KNN 97.10%±1.85% 97.38%±1.49%
LDA+KNN 92.55%±2.52% 94.84%±2.00%
KNN 88.95%±2.93% 91.25%±0.99%
PCA+KNN 86.30%±2.09% 89.12%±2.30%

为了验证算法中循环迭代的部分是收敛的,在ORL数据库上做了大量实验,测试随着迭代次数的增加式(5)中的目标函数值是否会收敛。多次重复实验的结果表明总目标函数确实每次都是收敛的。图 2描述了某次实验中式(5)中的目标函数值与迭代次数的关系。

图 2 目标函数值随迭代次数的变化 Fig. 2 Relationship Between Object Function and Iterate Times
2.2 实验结果分析

1) 图 1表 1描述了不同方法在同一个数据库ORL下的人脸识别效果,各项参数都相同的情况下,本文的降维方法MDSP比传统方法PCA和LDA在识别精度上有明显优势,这说明MDSP方法利用张量来处理数据的方式比利用向量处理数据,能保留更多对分类有利的信息。

2) 随着子空间维度P增大,MDSP方法的降维效果逐渐加强,但当P到达某个临界值后,降维效果不再增强,这表明子空间维度只能在一定范围内影响MDSP算法的降维效果。通过这样的实验,可以选取出使得降维效果最好的P值,同时尽可能减小时间开销。

3) 图 2表明,基于张量的MDSP算法是收敛的,这与§2节的收敛性分析是一致的。对算法进行足够次数的迭代,能得到最优解。

3 结 语

降维方法是提高人脸识别精度的重要手段。本文发展了一种新的降维方法——多维正交子空间投影(MDSP)。该算法使用了一种新的投影方式TVP代替传统的TTP方法和VVP方法,直接从张量数据中提取不相关的向量判别特征,形成数据大小远远小于原始张量数据的低维向量,然后利用分类器对降维后的数据进行分类和识别。

本文方法在ORL数据库上进行了大量对比实验,验证了MDSP算法的收敛性,并分析了各方法的分类精度与子空间维度的关系,找出了能使算法达到最大分类精确度的参数。实验结果表明,MDSP在分类精确度和分类稳定性上都高于传统降维算法。

虽然本文方法相比传统方法在人脸识别效果上有着较为明显的优势,但是仍然存在改进空间。本文提出的方法MDSP并未考虑数据噪声,在实验过程中选取了噪声较少的数据库进行实验,取得了较好的分类结果。然而,更多的数据是有噪声干扰的,这些噪声导致样本与正常样本有较大区别,给人脸分类造成了比较大的困难。因此,如何有效去除或减少数据中的噪声,降低噪声对分类的影响,使得算法更具有鲁棒性和普适性,是未来研究的重点内容。

参考文献
[1] Du Peijun, Wang Xiaomei, Tan Kun. Dimensionality Reduction and Feature Extraction from Hyperspectral Remote Sensing Imagery Based on Manifold Learning[J]. Geomatics and Information Science of Wuhan University, 2011, 36(2): 148-152 (杜培军, 王小美, 谭琨. 利用流形学习进行高光谱遥感影像的降维与特征提取[J]. 武汉大学学报·信息科学版, 2011, 36(2): 148-152)
[2] Wold S, Esbensen K, Geladi P. Principal Component Analysis[J]. Chemometrics and Intelligent Laboratory Systems, 1987, 2(1): 37-52
[3] Sugiyama M. Local Fisher Discriminant Analysis for Supervised Dimensionality Reduction[C]. The 23rd International Conference on Machine Learning, NewYork,2006
[4] Lu H, Plataniotis K N, Venetsanopoulos A N. MPCA: Multilinear Principal Component Analysis of Tensor Objects[J]. IEEE Transactions on Neural Networks, 2008, 19(1): 18-39
[5] Tao D, Li X, Wu X, et al. General Tensor Discriminant Analysis and Gabor Features for Gait Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(10): 1 700-1 715
[6] Lu H, Plataniotis K N, Venetsanopoulos A N. Uncorrelated Multilinear Discriminant Analysis with Regularization and Aggregation for Tensor Object Recognition[J]. IEEE Transactions on Neural Networks, 2009, 20(1): 103-123
[7] Ballani J, Grasedyck L. A Projection Method To Solve Linear Systems in Tensor Format[J]. Numerical Linear Algebra with Applications, 2013, 20(1): 27-43
[8] Liu J, Musialski P, Wonka P, et al. Tensor Completion for Estimating Missing Values in Visual Data[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 208-220
[9] Cover T M, Hart P E. Nearest Neighbor Pattern Classification[J]. IEEE Transactions on Information Theory, 1967, 13(1): 21-27
[10] Samaria F, Harter A. Parameterisation of a Stochastic Model for Human Face Identification [C]. The Second IEEE Workshop on Applications of Computer Vision, Sarasota, USA