-
近年来,智能视频监控系统得到迅速和广泛的普及,视频监控中的身份识别问题广受关注。然而,在多数智能视频监控应用中,超低分辨率(very low resolution,VLR)人脸识别[1]是学者专家面临的最难问题之一。VLR人脸识别主要是由于视频分辨率不高、成像距离过远,以及受到随机干扰影响等原因导致获取的面部图像质量低下,分辨率过低,辨识度太差等问题,远远达不到目前自动人脸识别技术实际应用所需的图像质量要求(如图 1所示)。为了解决VLR人脸识别问题,有必要提高人脸图像的质量,增强图像中人脸的辨识度。一种直观有效的方法就是恢复丢失的人脸图像信息,超分辨率(super resolution,SR)[2-4]就是利用数字图像处理技术,根据观测的低分辨率图像重建出高分辨率图像。对于人脸SR问题,Baker和Kanade于2000年提出了“幻想脸”的概念[5]。Liu等人[6]将人脸全局参数模型与非参数局部模型相结合,提出了一种两步的人脸SR方法。受到该方法的启发,不少人采用全局与局部模型相结合的两步方法处理人脸SR问题[7]。
以上算法大都是基于统计参数模型。首先利用最小特征距离找出与测试低分辨率样本相似的训练样本;然后,利用找出的训练样本统计出重建高分辨率图像所需的高频信息。虽然其充分利用了统计学原理,本质上仍是传统的一般图像的重建方法,没有很好地描述测试样本与训练样本之间的关系,因而效果受到限制。针对这种情况,提出了新的人脸SR思路,即基于字典学习的人脸SR方法[8-10]。Yang和Wright等[8]用图像块对代替图像样本,通过联合的训练高分辨率和低分辨率两个块字典,利用两个字典对高、低分辨率图像块对在稀疏表示上的相似保持,对低分辨率图像中的每一个图像块产生一个高分辨率估计图像块,最终得到整个高分辨率估计图像。Zeyde和Elad等[9]对字典训练方法进行了改进,并利用低分辨率观测图像作为样本图像进行训练,进一步改善了性能。这两种方法都是基于稀疏表示方法,需要利用相对复杂的稀疏求解方法获得稀疏表示;同时,都没有对图像类型作特别限定,可以用于一般单帧图像的超分辨率重建。Ma等[10]提出了基于人脸位置块约束的人脸超分辨率重建算法,并利用实验验证了位置块约束的有效性,及在表情变化及多视角人脸图像重建中的良好性能,该方法不仅改善了重建效果,而且速度相对较快。但是,该方法仍存在如何可靠求解最优化系数以及抗噪性能差的问题。
对于人脸图像,给定一个人脸图像块,往往可以为其找到很多的相似的图像块,即人脸的某一个部分往往会与另一部分相似。但是,邻域相似性并不能完整地刻画人脸图像的相似性本质。实际上,人脸图像块的相似性不仅体现在空间位置较近的局部邻域上,还体现在其非局部邻域上,即处于人脸图像中不同空间位置上的图像块也可以表现出很强的相关性,将人脸这种现象称为非局部相似性。为了进一步提高基于字典学习的SR方法抗噪性能和复杂变化情况的表现力,本文充分利用人脸图像的独特性,提出基于非局部相似字典学习的人脸SR方法。在超低分辨率人脸识别方面,根据多尺度非局部相似字典的线性组合的一致性,提出尺度不变的超低分辨率人脸识别方法。
-
基于学习的图像SR方法主要依据图像相似性的两个规律:一是图像与图像之间存在着大量的可用相似信息;二是这种相似性在不同分辨率尺度上保持。对于第一个规律,直观地来看图像的相似性,意味着对于任意一幅自然图像,给定一个图像像素或局部纹理,往往可以为其找到很多的相似的像素或纹理,即图像的某一个部分往往会与另一部分相似。但是,邻域相似性并不能完整地刻画自然图像的相似性本质。实际上,图像的相似性不仅体现在图像内空间位置较近的局部邻域上,还体现在其非局部邻域上,即处于图像中不同空间位置上的像素点也可以表现出很强的相关性。一幅图像的某个像素的相似像素点,可能遍布于该幅图像的整个空间,而并不一定仅仅局限于该像素的周围邻域内。如图 2中的方形与圆形小窗口,其相似块就遍布于整幅图像的非局部区域。以上所述称为图像的非局部相似性质,体现了图像的冗余性,更能反映图像的本质特性,比传统的邻域处理方法对图像的规则性假设更具一般性。
对于第二个规律,意味着不同分辨率下相似信息之间的关系将保持相同或相似的形式。将这一性质应用于基于样本学习的人脸超分辨率重建中,就可以利用高、低不同的分辨率样本对测试人脸的相似表示,进行超分辨率重建。首先,建立一对具有不同分辨率的样本训练库,一个是高分辨率样本库,另一个是低分辨率样本库(由高分辨率样本库中的样本经过降质过程得到)。然后,利用测试样本及其高分辨率估计分别在低分辨率和高分辨率两种不同分辨率训练库上的相似表示,将期望的人脸高分辨率图像以高分辨率样本表示的形式实现,从而避免传统方法中由低分辨率直接推至高分辨率的方式。
最近的人脸超分辨率研究工作[8-10]就是利用了上述性质,其中主要有基于特征脸的表示方法和基于稀疏字典的表示方法。共同特点都是利用高分辨率和低分辨率训练样本之间基于多尺度字典的联合先验[8]信息,即高、低分辨率样本空间对测试样本的表示相似性,实现超分辨率重建。
人脸图像作为一种特殊的图像形式,同时具有图像的多尺度相似性保持和非局部相似两个特性。根据这两个特性,本文提出基于非局部相似与多尺度线性组合的人脸超分辨率算法。
本文算法分为训练和重建两部分。训练部分主要是对训练样本人脸图像进行处理,构建高分辨率和低分辨率图像块字典对。重建部分则是对低分辨率测试图像进行处理,基于已建立的图像块字典对,利用测试图像块在不同分辨率尺度字典上的表示相似性,获得高分辨率图像。
1) 训练过程
(1) 对输入的低分辨率观测图像进行降质参数估计确定降质过程,包括噪声方差和模糊参数。然后,针对每一幅高分辨率人脸样本图像,通过降质处理得到相应的低分辨率样本图像。将低分辨率样本图像划分成有重叠的b×b大小的图像块,并进行向量化(除了特殊说明以外,后面所有提到的图像块都是以向量形式存在)。高分辨率样本图像划分成bs×bs大小的图像块,s为采样因子。据此,高分辨率块和低分辨率块具有一一对应关系。对500幅人脸图像样本通过以上数据处理方法生成高、低分辨率人脸块样本集Ah、Al。
(2) 为使高、低分辨率人脸块样本集具有更好的分类识别性能,对(1) 生成的Ah、Al利用K-SVD方法进行训练优化得到高、低分辨率人脸块完备字典Dh、Dl。K-SVD字典训练的目标函数为:
(1) 式中,D为需要求取的字典;X为训练样本矩阵;α为线性组合系数;T为稀疏约束项。
2) 重建过程
(1) 将输入的测试低分辨率图像同样划分成有重叠的b×b大小图像块。
(2) 对低分辨率观测图像上的每一个图像块,在各低分辨率样本图像上搜索以该块为中心、以r为半径的非局部邻域,从该邻域范围内选取相似分块用于重建,并根据式(2) 计算相似块的归一化权值:
(2) 式中,N(i,j)表示非局部邻域像素点集合,原始权值w(i′,j′,i,j)定义为:
(3) 式中,yt和ys分别表示低分辨率测试图像和样本图像;Pi,j表示从图中提取以待估计像素(i,j)为中心的大小为b×b的块;(i′,j′)是像素(i,j)在低分辨率网格上的非局部邻域像素,二者的空间位移为d;f是单调非增函数,本文取高斯函数;α取决于噪声标准差的估计。
(3) 根据高分辨率样本图像集xs,由下式重建低分辨率图像块Pi,jyt的高分辨率估计:
(4) 式中,(k′,l′)是(i′,j′)在高分辨率网格上的对应像素。保持权值矩阵不变,即
(5) 于是有:
(6) (4) 通过对已估计的互有重叠的高分辨率图像块进行融合,得到整幅高分辨率估计图像。本文对多个图像块对同一像素的多个估计直接平均求取最终估计值。
-
近十年来,已经有大量关于空间分辨率退化的人脸识别算法被提出[11-13],并在一定程度上解决了人脸图像分辨率低下和质量不合格问题,但是其识别性能并不理想,特别是面对超低分辨率人脸问题显得力不从心。为了进一步提高超低分辨率人脸识别性能,本文综合人脸超分辨率和人脸识别方法,提出一种分辨率尺度不变特征的超低分辨率人脸识别方法(resolution scale invariant feature,RSIF)。受到基于字典学习的人脸SR方法的启发,利用人脸图像在不同分辨率尺度一致性原则,提取人脸图像的线性组合系数作为不同分辨率人脸图像的特征。RSIF方法在避免人脸超分辨重建过程的同时还能提高超低分辨率人脸的识别率,而且对分辨率尺度变化具有很好的鲁棒性。
RSIF方法步骤如下。
1) 数据获取与配准
本文采用中科院CAS-PEAL-R1人脸图像库,从库中选择具有代表性的500个人作为高分辨人脸库。采用§1中的数据处理与字典训练方法得到高、低分辨率人脸块完备字典Dh、Dl。
2) 线性组合权值求解
第(i,j)块向量Y(i,j)可由其非局部邻域相似块线性加权表示为:
(7) 式中,Di,jL为第(i,j)块低分辨率字典,为了叙述方便,另记为DmL,m=1,2,…,M,其中M为低分辨率字典中块字典的个数;WmL为权值矩阵,字典中每个原子的权值记为wL,表示每个非局部相似块对输入图像相应分块重建的贡献率。因此,式(7) 可改写为:
(8) 式中,e为重建误差。由式(8) 可以看出WL的求解变为最小化重建误差e的问题:
(9) 式(9) 是一个带约束的最小二乘法问题,其中
为约束项。令(10) 式中,C为全1的列向量,可得到S的局部协方差矩阵Z=STS。于是式(10) 的最小二乘解为:
(11) 更有效得到权值WL的方法是求解线性方程组:
(12) 3) 分类识别
本文采用两个向量角度之间的余弦值作为两个人脸之间的相似度量:
(13) 式中,w1、w2为两个匹配人脸的特征向量(人脸线性组合表示权值),由式(12) 求出。
-
实验采用中科院CAS-PEAL-R1人脸图像库[14]。本文从不包含表情、姿态变换的标准正面人脸中随机抽选1 000个人的正面人脸图像,进行预处理后得到分辨率为128×96的人脸面部图像,作为高分辨率人脸图像样本。为了体现算法对样本的非依赖性,每次实验都先进行准备工作:从1 000个人中选择500个人对应的500幅高分辨率人脸图像,对高分辨率人脸样本图像进行降质处理,得到对应的500幅低分辨率人脸图像,从而构成一对高、低分辨率人脸样本集。分别对样本集中高、低分辨率人脸样本进行分块化,获得数量相等的高、低分辨率分块,构成一对高、低分辨率图像块字典。然后,对32×24大小的低分辨率测试人脸样本进行4倍超分辨率重建。本文中低分辨率图像均划分为3×3大小的块,高分辨率图像均划分为12×12大小的块。
1) 正面人脸重建及抗噪性能实验
为了验证算法对样本的非依赖性,以及评估算法的抗噪性能,采用正面人脸(不在训练样本集中)作为测试样本对其进行超分辨率重建,将重建结果与Ma等人方法[10]进行比较。
(1) 测试样本无噪声情况
图 3显示了不同方法下的无噪人脸图像4倍重建结果。可以看出,Ma等人方法和本文方法都取得了很好的重建视觉效果,在没有噪声的情况下,都能不依赖样本进行较好的重建。
(2) 测试样本有噪声情况
图 4显示了测试人脸图像包含零均值的高斯噪声情况下的重建结果对比。从上至下,每一行显示了不同噪声强度下的各种方法的重建结果。可以看出:随着噪声强度的增大,输入低分辨率图像质量越来越差,各方法的重建效果也不断下降,被噪声严重影响,唯有本文方法基本保持不变,展现出了优秀的抗噪性能。
2) 姿态人脸重建实验
本组实验是为了验证本文方法对姿态人脸图像重建的有效性。实验条件是:测试图像是具有一定姿态的人脸图像,而样本集人脸图像为不包含测试人、且均为无姿态的正面人脸图像。图 5为不同方法下的姿态人脸重建结果。可以看出,本文方法与其它方法相比视觉效果更好。
由于本文算法对于样本图像的非依赖性,因此,人脸样本字典可以离线进行,这样就只需考虑重建所花费的时间。除了姿态人脸重建实验外,本文方法重建阶段的平均花费时间是0.316 s,而Ma等人的方法需要40.75 s。实验硬件环境为:Intel Core(TM)2 Quad CPU 8300,主频2.5 GHz,2 G内存;软件环境为MATLAB 7.1。根据以上实验结果可以看出,本文充分利用了人脸的非局部相似进行字典构建,提出的人脸重建算法对人脸图像噪声和姿态变化具有很好的鲁棒性。
-
通过FRGC V2.0[15]和CAS-PEAL-R1人脸图像库来检验本文提出的尺度不变特征方法(RSIF)对不同分辨率尺度图像的识别性能。分别从以上两个人脸库中挑选出100个人,每个包括5幅不同图像共500幅构建人脸高低分辨率字典。剩余的人脸图像作为测试集。所有人脸识别实验重复进行10次,统计其平均识别率。
数据库设置:对于FRGC V2.0人脸库,测试集中,每个人选择10幅具有轻微姿态、表情变化的人脸图像作为实验,丢弃那些只有正面和轻微表情变化且不足10幅图像的对象。同样地,对于CAS-PEAL人脸库,每个人选择10幅包含表情和姿态变化的人脸图像做实验。
对于FRGC V2.0人脸库,低分辨率(LR)人脸库分为7×6、14×12、28×24,高分辨率(HR)人脸库为56×48;对于CAS-PEAL人脸库,LR分为8×6、16×12、32×24、64×48,HR为128×96。基于FRGC V2.0人脸库实验结果如图 6所示(其中,横坐标表示不同名次下的识别结果,如Rank 10表示前10名下的识别率)。从图中可以看出,在三种不同分辨率下,RSIF方法都能提高VLR图像的识别率,在分辨率为7×6时,RSIF的识别率与HR非常接近,在其它两种分辨率RSIF的识别率还高于HR的识别率。从图中还可以看出,在三种不同分辨率下,RSIF方法的识别率基本上保持不变,说明RSIF方法对VLR人脸识别问题具有很好的鲁棒性。
图 6 基于FRGC V2.0的不同分辨率下人脸识别结果(分辨率从左到右依次为7×6、14×12和28×24)
Figure 6. FRGC V2.0 Based Face Recognition Results Under Different Resolution
为了进一步验证本文方法的优越性,在CAS-PEAL人脸库上将RSIF方法与主流的超低分辨率人脸识别方法(Gunturk’s Method[11]、Wilman’s Method[1])进行比较,比较结果如图 7所示,从图中可以看出,RSIF方法具有最优的识别性能,在不同分辨率上都有着很好的识别效果。
从以上人脸识别实验结果可以看出,本文提出的RSIF人脸识别算法充分利用了人脸高低分辨率人脸图像线性组合的一致性特点和人脸图像块的非局部相似特性,对人脸图像分辨率变化具有鲁棒性,同时优于同类超低分辨率人脸识别方法。本文方法的特点为:① 不需要超分辨率重建过程;② 与常规的子空间分析相比,不需要样本训练过程,直接根据构建的高、低字典进行分辨率不变特征提取。但本文方法的最大不足为需要对测试人脸进行分辨率情况预判以便选择相应的字典进行特征提取。
-
本文利用非局部相似线性组合的多尺度表示一致性,将其应用于人脸超分辨率重建,提出非局部相似与线性组合的人脸超分辨率重建算法。实验证明了重建算法在有噪声和姿态变化等情况下的有效性。算法利用非局部均值算法原理寻求基于字典的表示,避免了同类算法中复杂的表示系数求解问题,具有简单、稳定、快速的特点,实验验证了本文方法具有优秀的抗噪性能。另外,本文提出基于尺度不变特征的低分辨人脸识别方法,实验证明此方法对人脸分辨率具有鲁棒性。
Non-local Similarity Dictionary Learning Based Super-resolution for Improved Face Recognition
-
摘要: 随着视频监控应用的普及,超低分辨率人脸识别问题越来越突出。现存的人脸识别算法在面对超低分辨率人脸图像时无法给出满意识别性能。在一定程度上,人脸超分辨率方法可以提高人脸的分辨率,但是,目前主流的基于字典学习的人脸超分辨率方法并不能很好地处理超低分辨人脸图像重建问题,尤其是超分辨率人脸识别问题。利用人脸图像块的非局部相似性和多尺度相似性,提出一种改进的基于字典学习的超分辨率人脸重建算法,同时提出尺度不变特征的超低分辨率人脸识别方法。实验结果表明:本文提出的方法不但具有很好的视觉效果,而且还具有很好的识别效果,与目前主流的人脸超分辨率和识别算法相比具有明显的优势。Abstract: The Very Low Resolution (VLR) problem happens in many face recognition application systems given the increasing demand for camera-based surveillance applications,. Currently, the existing face recognition algorithms cannot deliver satisfactory performance with VLR face images. While face super-resolution (SR) methods can be employed to enhance the resolution of the images, the existing dictionary learning-based face SR methods are inadequate for VLR face images. To overcome this problem, we propose a novel SR face reconstruction method based on non-local similarities and multi-scale linear combinations and subsequently, a new approach for VLR face recognition based on resolution scale invariant features. Experimental results show that the proposed approach based on dictionary learning outperforms the existing algorithms in public face databases, obtaining a good visuality suitable for face recognition applications subject to the VLR problem.
-
Key words:
- super resolution /
- face recognition /
- dictionary learning /
- linear combination /
- non-local similarity
-
-
[1] Wilman W W Zou, Pong C Yuen. Very Low Resolution Face Recognition Problem[J]. IEEE Transactions on Image Processing, 2012, 21(1):327-340 doi: 10.1109/TIP.2011.2162423 [2] 岳林蔚,沈焕锋,袁强强,等. 基于双边结构张量的局部自适应图像超分辨率重建[J]. 武汉大学学报·信息科学版,2015, 40(4):493-497 http://ch.whu.edu.cn/CN/abstract/abstract3233.shtml Yue Linwei, Shen Huanfeng, Yuan Qiangqiang, et al. A Bilateral Structure Based on Local Adaptive Regularization for Super-resolution[J]. Geomatics and Information Science of Wuhan University, 2015, 40(4):493-497 http://ch.whu.edu.cn/CN/abstract/abstract3233.shtml [3] 兰诚栋,陈亮,卢涛. 利用位置权重稀疏表示的人脸超分辨率算法[J].武汉大学学报·信息科学版,2013, 38(1):27-30 http://www.cnki.com.cn/Article/CJFDTOTAL-WHCH201301007.htm Lan Chengdong, Chen Liang, Lu Tao. Face Super-resolution Using Sparse Representation with Position Weights[J]. Geomatics and Information Science of Wuhan University, 2013, 38(1):27-30 http://www.cnki.com.cn/Article/CJFDTOTAL-WHCH201301007.htm [4] 郭琳,陈庆虎. 结构保持的图像序列自适应超分辨率重建[J].·信息科学版,2011, 36(5):548-551 http://ch.whu.edu.cn/CN/abstract/abstract534.shtml Guo Lin, Chen Qinghu. Adaptive Super -Resolution Reconstruction of Image Sequences with Structure Preserving[J]. Geomatics and Information Science of Wuhan University, 2011, 36(5):548-551 http://ch.whu.edu.cn/CN/abstract/abstract534.shtml [5] Baker S, Kanade T. Hallucinating Faces[C]. Fourth International Conference on Automatic Face and Gesture Recognition, Grenoble, France, 2000 [6] Liu C, Shum H Y, Zhang C S. A Two-step Approach to Hallucinating Faces:Global Parametric Model and Local Nonparametric Model[C]. IEEE Conference on Computer Vision and Pattern Recognition, Kauai, United States, 2001 [7] Su C, Zhuang Y, Huang L, et al. Steerable Pyramid Based Face Hallucination[J]. Pattern Recognition, 2005, 38(6):813-824 doi: 10.1016/j.patcog.2004.11.007 [8] Yang J C, Wright J, Huang T S, et al. Image Super-resolution as Sparse Representation[J]. IEEE Transactions on Image Processing, 2010, 19(11):2861-2873 doi: 10.1109/TIP.2010.2050625 [9] Zeyde R, Elad M, Protter M. On Single Image Scale-Up Using Sparse-Representations[C]. 7th International Conference on Curves and Surfaces, Avignon, France,2011 [10] Ma X, Zhang J, Qi C. Hallucinating Face by Position-patch[J]. Pattern Recognition, 2010, 43:2224-2236 doi: 10.1016/j.patcog.2009.12.019 [11] Gunturk B, Batur A, Altunbasak Y, et al. Eigenface-domain Super-resolution for Face Recognition[J]. IEEE Transactions on Image Processing, 2003, 12(5):597-606 doi: 10.1109/TIP.2003.811513 [12] Hennings-Yeomans P H, Baker S, Kumar B. Simultaneous Super-resolution and Feature Extraction for Recognition of Low-resolution Faces[C]. IEEE Conference on Computer Vision and Pattern Recognition, Anchorage, United States, 2008 [13] Huang Hua, He Huiting. Super-resolution Method for Facerecognition Using Nonlinear Mappings on Coherent Features[J]. IEEE Transactions on Neural Networks, 2011, 22(1):121-130 doi: 10.1109/TNN.2010.2089470 [14] Gao W, Cao B, Shan S G, et al. The CAS-PEAL Large-scale Chinese Face Database and Baseline Evaluations[J]. IEEE Transaction on System Man, and Cybernetics (Part A), 2008, 38:149-161 doi: 10.1109/TSMCA.2007.909557 [15] Phillips P, Flynn P, Scruggs T, et al. Overview of the Face Recognition Grand Challenge[C]. IEEE Conference on Computer Vision and Pattern Recognition, San Diego, United States, 200 -