留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于鉴别字典学习的遮挡人脸姿态识别

邱益鸣 廖海斌 陈庆虎

邱益鸣, 廖海斌, 陈庆虎. 基于鉴别字典学习的遮挡人脸姿态识别[J]. 武汉大学学报 ● 信息科学版, 2018, 43(2): 275-281, 288. doi: 10.13203/j.whugis20150298
引用本文: 邱益鸣, 廖海斌, 陈庆虎. 基于鉴别字典学习的遮挡人脸姿态识别[J]. 武汉大学学报 ● 信息科学版, 2018, 43(2): 275-281, 288. doi: 10.13203/j.whugis20150298
QIU Yiming, LIAO Haibin, CHEN Qinghu. Occluded Face Pose Recognition Based on Dictionary Learning with Discrimination Performance[J]. Geomatics and Information Science of Wuhan University, 2018, 43(2): 275-281, 288. doi: 10.13203/j.whugis20150298
Citation: QIU Yiming, LIAO Haibin, CHEN Qinghu. Occluded Face Pose Recognition Based on Dictionary Learning with Discrimination Performance[J]. Geomatics and Information Science of Wuhan University, 2018, 43(2): 275-281, 288. doi: 10.13203/j.whugis20150298

基于鉴别字典学习的遮挡人脸姿态识别

doi: 10.13203/j.whugis20150298
基金项目: 

湖北省自然科学基金 2017CFB300

湖北省教育厅科学技术研究项目 Q20172805

湖北省教育科学规划项目 2016GB086

详细信息
    作者简介:

    邱益鸣, 研究员, 主要从事图像处理与智能识别理论研究与方法研究。fhqim@sina.com

    通讯作者: 廖海斌, 博士, 副教授。Liao_haibing@163.com
  • 中图分类号: P237

Occluded Face Pose Recognition Based on Dictionary Learning with Discrimination Performance

Funds: 

The Program of the Natural Science Foundation of Hubei Province 2017CFB300

the Hubei Provincial Education Department Science and Technology Research Projects Q20172805

the Hubei Provincial Education Science Plan Project 2016GB086

More Information
    Author Bio:

    QIU Yiming, PhD, researcher, specializes in image processing and pattern recognition. E-mail: fhqim@sina.com

    Corresponding author: LIAO Haibin, PhD, associate professor. E-mail: liao_haibing@163.com
图(7) / 表(3)
计量
  • 文章访问数:  1606
  • HTML全文浏览量:  117
  • PDF下载量:  585
  • 被引次数: 0
出版历程
  • 收稿日期:  2016-03-29
  • 刊出日期:  2018-02-05

基于鉴别字典学习的遮挡人脸姿态识别

doi: 10.13203/j.whugis20150298
    基金项目:

    湖北省自然科学基金 2017CFB300

    湖北省教育厅科学技术研究项目 Q20172805

    湖北省教育科学规划项目 2016GB086

    作者简介:

    邱益鸣, 研究员, 主要从事图像处理与智能识别理论研究与方法研究。fhqim@sina.com

    通讯作者: 廖海斌, 博士, 副教授。Liao_haibing@163.com
  • 中图分类号: P237

摘要: 利用字典学习与稀疏表示的信号重建与分类的性能,两步字典训练学习方法引入到鲁棒性人脸姿态识别中。首先,将人脸姿态离散化为不同的子空间,使用K-奇异值分解法(K-SVD)为每个子空间训练一个子字典使其对应一个类别;然后,将所有子字典组合成超完备字典;最后,采用基于Gabor特征与稀疏表示的方法进行姿态分类。为了提高字典的分类能力,本文采用两步字典训练学习方法,并在第二步学习中加入类别约束;为了提高算法的鲁棒性,本文重构一个遮挡人脸字典,解决人脸姿态识别中人脸遮挡问题。通过在公开的XJTU、PIE和CAS-PEAL-R1人脸库上的实验结果表明,本文方法在具有光照、噪声和遮挡变化的人脸库识别率均能达到95%左右,基本能达到实际应用的要求。

English Abstract

邱益鸣, 廖海斌, 陈庆虎. 基于鉴别字典学习的遮挡人脸姿态识别[J]. 武汉大学学报 ● 信息科学版, 2018, 43(2): 275-281, 288. doi: 10.13203/j.whugis20150298
引用本文: 邱益鸣, 廖海斌, 陈庆虎. 基于鉴别字典学习的遮挡人脸姿态识别[J]. 武汉大学学报 ● 信息科学版, 2018, 43(2): 275-281, 288. doi: 10.13203/j.whugis20150298
QIU Yiming, LIAO Haibin, CHEN Qinghu. Occluded Face Pose Recognition Based on Dictionary Learning with Discrimination Performance[J]. Geomatics and Information Science of Wuhan University, 2018, 43(2): 275-281, 288. doi: 10.13203/j.whugis20150298
Citation: QIU Yiming, LIAO Haibin, CHEN Qinghu. Occluded Face Pose Recognition Based on Dictionary Learning with Discrimination Performance[J]. Geomatics and Information Science of Wuhan University, 2018, 43(2): 275-281, 288. doi: 10.13203/j.whugis20150298
  • 人脸姿态识别就是根据图像确定人脸在三维空间中姿态参数的过程。人脸姿态识别在智能视频监控、人脸识别、人机交互和虚拟现实领域具有巨大的应用前景。例如,在智能视频监控方面,人脸姿态识别可以应用于驾驶监控系统,通过监控司机的人脸姿态变化来识别司机是否集中注意力开车,避免撞车情况的发生。此外,人脸姿态估计对人脸识别的准确度有很大的影响,许多人脸识别算法对正面人脸图像能够达到很好的识别率,但对于多姿态的非正面人脸图像,识别准确率会严重下降,而人脸姿态预估计是解决多姿态人脸识别的一种重要途径。

    现有的人脸姿态检测方法大体上可以分为纹理子空间方法、3D方法和其他类方法3类。第1类方法通过基于2D人脸外观的学习方法实现姿态的检测与估计。其中比较典型的有主成份分析(pvincipal component analysis, PCA)[1]、线性判别分析(linear discriminant analysis, LDA)[2]和独立子空间分析[3]等。由于PCA是一种线性降维方法,而人脸姿态3D旋转变化很大程度上是一种非线性变化。因此学者们使用核主成份分析(Kernel-PCA, KPCA)[4]方法、流型学习方法[5]解决这种非线性变化问题。但是,核方法和流型学习方法有一个缺陷:随着人脸训练样本增加,它很难分离出身份和姿态。这就意味着,当人脸训练库足够大时,姿态估计的准确率会根据人的不同而变化。此类方法最大的特点是处理速度快,容易实现,但是需要通过大量样本的训练,对人脸的光照、表情等变化较为敏感,特别是对光照极差的视频人脸图像其准确率下降明显。

    第2类方法认为人脸姿态检测本身就是一个3D问题,只有通过3D信息才能表征人脸姿态的本质特征。因此,这类方法往往通过抽取3D特征来表征不同姿态,或者利用不同视角下的多幅图像在三维空间中重建人脸的3D模型,实现姿态的检测[6-8]。这类方法往往对图像的大小和质量要求很高,并且会花费大量的运算时间。此类方法能够得到很高准确率,但是实时性不高,同时对视频监控中的超低分辨率和遮挡人脸图像效果不是很好。

    第3类方法是一些非主流方法[9-13],只能解决人脸姿态估计中部分问题或只能应用于某些特定场合。例如,文献[9]提出多相机的人脸姿态估计方法, 为了正确估计人脸姿态,需要利用前后左右6个相机拍照的6幅图像进行融合判别。文献[10]提出块聚类的方法进行人脸姿态估计,取得了不错的效果,但是他们的方法估计的姿态范围有限(只能识别45°范围的姿态变化)。文献[12]利用人脸对称性,文献[13]采用椭圆的方法,文献[11]采用三角形的方法进行人脸姿态识别,都得到了不错准确率,但是他们的方法只能对人脸左右偏转估计有效,而对人脸上下旋转情况失效。

    目前,光照、噪声、遮挡、分辨率、身份、表情等因素的变化都会对姿态估计的准确性产生巨大的影响,如何消除这些因素的影响是目前亟需解决的问题。最近法国里昂大学和法国国立科学研究院的Zhang和Idrissi等人提出基于字典学习的人脸姿态识别框架[14],他们的方法对人脸光照、噪声和分辨率变化具有鲁棒性。但可惜的是他们只研究了人脸左右偏转的情况,并没有对人脸上下偏转进行研究。另外,他们并没有充分挖掘字典学习与稀疏表示的特点与优势,导致没有对人脸遮挡问题做出相应的解决方案。

    因此,本文进一步研究基于字典学习和稀疏表示的人脸姿态识别框架,为了使此框架能进行人脸上下偏转姿态识别,重新构建了人脸姿态超完备字典,使其囊括上下偏转姿态。同时,为了使算法对人脸遮挡变化具有鲁棒性,还增建了一个遮挡人脸字典。另外,为了提高识别率,在字典训练学习过程中加入类别约束信息,使字典不但具有高可重构性,还具有高分类性。

    • 将人脸姿态以左右20°和上下30°偏转为间隔进行离散化,把人脸姿态化分为L种不同类别。假设有姿态训练样本集A={A1 A2AL}, 其中,第i(i=1, 2…L)类训练样本用特征向量矩阵表示为:Ai=[Si, 1 Si, 2Si, ni]∈Rm×ni。其中,ni表示第i类姿态样本数目,m表示样本特征维数,Si, 1是第i类姿态中第1个人脸的特征向量。研究表明,Gabor滤波器能高效地以多尺度形式获取图像的局部方向信息,对人脸光照、表情具有不变性。文献[15]指出采用基于Gabor特征的稀疏表示人脸识别方法比采用原始随机采样和PCA特征的稀疏表示方法要好。因此,本文采用Gabor特征向量作为字典的原子。人脸姿态图像的Gabor特征为:

      $$ \mathit{\boldsymbol{S}} = \left( {\mathit{\boldsymbol{a}}_{0, 0}^{\left( \rho \right)};\mathit{\boldsymbol{a}}_{1, 0}^{\left( \rho \right)}; \cdots ;\mathit{\boldsymbol{a}}_{7, 4}^{\left( \rho \right)}} \right) $$ (1)

      式中,aμv(ρ)是通过对Gabor滤波系数的模Mμ, v(ρ)进行ρ下采样而得到的列向量; μ, v为Gabor滤波器的方向与尺度。Mμ, v(ρ)为图像与Gabor核ψμ, v的卷积。Gabor核定义为:

      $$ {\psi _{\mu ,v}}\left( z \right) = \frac{{{{\left\| {{k_{\mu ,v}}} \right\|}^2}}}{{{\sigma ^2}}}{{\rm{e}}^{ - {{\left\| {{k_{\mu ,v}}} \right\|}^2}{{\left\| z \right\|}^2}/2{\sigma ^2}}}\left( {{{\rm{e}}^{i{k_{\mu ,{v^z}}}}} - {{\rm{e}}^{ - {\sigma ^2}/2}}} \right) $$ (2)

      式中,z(x, y)表示像素; kμ, v为小波项; σ控制着高斯窗口宽度与波长的比例。

      根据信号的稀疏表示原理,测试样本w0可以由训练样本中少数样本线性组合表示:

      $$ \hat x = \arg \min \;{\left\| x \right\|_0}\;\;\;\;{\rm{s}}{\rm{.t}}.\;Ax = y $$ (3)

      其中x为线性组合系数。原子追踪、压缩感知与稀疏表示方法的研究成果[16]表明,如果上述方程组的解足够稀疏,就可以由下面的l1范数正则化的极小化问题求出:

      $$ \left( {{l^1}} \right):{\hat x_1} = \arg \min \;{\left\| x \right\|_1}\;{\rm{s}}{\rm{.t}}{\rm{.}}\;{\rm{A}}x = y $$ (4)

      该问题可以通过标准的线性规范方法进行求解。

      理论上$ {\hat x_1} $应该只与训练样本中的某一类姿态样本的关系密切,其对应的表征系数非零。因此,可以清楚地对该待测姿态进行分类,如图 1所示,输入的侧脸属于第4类(图中第2列)。因此,其线性组合表示的非零项主要集中在第2列(图 1中红色方框)。

      图  1  基于SRC人脸姿态分类识别

      Figure 1.  Face Poses Recognition Based on SRC

      一般的,可以直接使用上述训练集(Gabor特征向量)作为人脸姿态字典。但这种方式构建的字典并非最优,同时可能导致字典矩阵过大。为了对字典进行优化,本文采用文献[17]中带类别信息的字典学习方法进行两步字典学习优化。

      第1步:对每类样本采用经典K-means聚类和奇异值分解的字典学习方法(K-SVD)进行单独训练优化得到字典Di,字典训练的目标函数为:

      $$ \begin{array}{l} \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\left\langle {{\mathit{\boldsymbol{D}}_i}, {\mathit{\boldsymbol{\alpha }}_i}} \right\rangle = \\ \mathop {\arg \min }\limits_{{\mathit{\boldsymbol{D}}_i}, {\alpha _i}} {\left\| {{S_i} - {\mathit{\boldsymbol{D}}_i}{\alpha _i}} \right\|_2}\;\;{\rm{s}}{\rm{.t}}{\rm{.}}\;{\left\| {{\alpha _i}} \right\|_0} \le T \end{array} $$ (5)

      式中,Si为第i类训练样本矩阵;αi为线性组合系数;T为稀疏约束项。然后将各类子字典Di融合组成超完备字典D =[D1D2DL]。

      K-SVD方法在图像去噪和压缩等方面取得了非常好的效果。但由于其目标函数仅考虑了信号的重建误差和系数的稀疏性。所以通过上式训练得出的字典对于信号分类来说并一定是最优的。为了使字典具有很强的鉴别能力,文献[17]中的方法以第1步训练出字典作为初始化字典进行第2步训练学习:

      $$ \begin{array}{l} \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\left\langle {\mathit{\boldsymbol{D'}}, \mathit{\boldsymbol{W}}, \mathit{\boldsymbol{\alpha }}} \right\rangle = \\ \mathop {\arg \min }\limits_{D', W, \alpha } {\left\| {\left( {\mathit{\boldsymbol{S}}\sqrt \gamma \times \mathit{\boldsymbol{H}}} \right) - \left( {\mathit{\boldsymbol{D'}}\sqrt \gamma \times \mathit{\boldsymbol{W}}} \right) \times \mathit{\boldsymbol{\alpha }}} \right\|_2}\\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;{\rm{s}}{\rm{.t}}{\rm{.}}\;\;{\left\| \mathit{\boldsymbol{\alpha }} \right\|_0} \le T \end{array} $$ (6)

      式中,H为训练样本的类别;W为引入的线性分类器;α为稀疏表示系数;S为全体训练样本矩阵;γ为平衡控制因子。

    • 有了稀疏表示系数α和分类器W后,可以得出输入姿态的类别l :

      $$ \mathit{\boldsymbol{l}} = \mathit{\boldsymbol{W}} \times \mathit{\boldsymbol{\alpha }} $$ (7)

      式中,α可看成D'中每个原子项d'k对重构输入图像的权值;W中每列wk可看成用来计算d'k与每类的相似度。因此,l可以认为是输入姿态y与各类的加权相似度。理想情况下,l只有一个非零项,其他项都为零,即l =[0 0…1…0 0]。因此,可以根据其非零项确定其类别。但在实际应用中,由于建模误差和复杂环境变化等因素影响导致l中可能有多个非零项,本文取最大项所对应的类别。

    • 根据稀疏表示的人脸识别方法[18]可知,当测试人脸具有遮挡或腐蚀变化时,式(4)可重写为:

      $$ \mathit{\boldsymbol{y}} = {\mathit{\boldsymbol{y}}_0} + {\mathit{\boldsymbol{e}}_0} = \mathit{\boldsymbol{D'x}} + {\mathit{\boldsymbol{e}}_0} = \left[{\mathit{\boldsymbol{D'}}\;\;{\mathit{\boldsymbol{D}}_e}} \right]\left[\begin{array}{l} x\\ {x_e} \end{array} \right] = \mathit{\boldsymbol{B\omega }} $$ (8)

      式中,B=[D'  De]∈ Rm×(n+e0);无遮挡图像y0与遮挡误差图像e0分别可由字典D'和遮挡字典DeRm×ne稀疏表示。在稀疏表示人脸识别中,De通常为正交单位矩阵。单位矩阵对图像误差和噪声描述不够准确与直观,且维数过高。首先,收集不同姿态变化下的遮挡人脸图像,每个人每种姿态下收集4种不同遮挡(可以用黑方块模拟)的人脸样本,共收集100个人;其次,用遮挡人脸样本减去其对应类的均值人脸得到误差图像,所有的误差图像构成了遮挡字典De的训练集;然后,将全部训练样本与误差图像组成最终的字典训练集S'。因此,遮挡人脸姿态识别中鉴别字典B的学习问题转化成如下的优化问题:

      $$ \begin{array}{l} \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\left\langle {\mathit{\boldsymbol{B}}, \mathit{\boldsymbol{W}}, \mathit{\boldsymbol{\alpha }}} \right\rangle = \\ \mathop {\arg \min }\limits_{B, W, \alpha } {\left\| {\left( \begin{array}{l} {\mathit{\boldsymbol{S'}}}\\ \sqrt \gamma \times \mathit{\boldsymbol{H}} \end{array} \right) - \left( \begin{array}{l} \;\;\;\mathit{\boldsymbol{B}}\\ \sqrt \gamma \times \mathit{\boldsymbol{W}} \end{array} \right) \times \mathit{\boldsymbol{\alpha }}} \right\|_2}\\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;{\rm{s}}{\rm{.t}}{\rm{.}}\;\;{\left\| \mathit{\boldsymbol{\alpha }} \right\|_0} \le T \end{array} $$ (9)

      通过式(9)便可求出带遮挡部分的稀疏表示系数ω,并从中分解出稀疏表示系数xxe进行遮挡人脸姿态识别。可见,本文通过增加遮挡字典De的方法可以成功地解决人脸遮挡问题。

      实际应用中,人脸遮挡主要包括墨镜与围巾遮挡。目前还没有出现不同姿态下包括墨镜与围巾遮挡的人脸库。因此,本文用黑方块遮挡眼睛和下巴区域来模拟人脸遮挡情况来补充遮挡训练样本不足的缺陷,并以此构建遮挡人脸字典和测试人脸库。

    • 本节将利用XJTU(Xi’an Jiaotong University Database)[19]、PIE (Pose, Illumination and Expression Database)[20]和CAS-PEAL-R1 Database[21]验证本文提出的人脸姿态估计算法的有效性。并与目前主流的PCA[1]、ICA[3]和先进的基于字典学习和稀疏表示的方法[14](dictionary-learning sparse representation, DLSR)相比较。

      XJTU人脸库是由西安交通大学建立的,共采集了1247位志愿者的33 669幅人脸图像,包括视点(左右偏转)和光照两个子库,每位志愿者拍摄19张视点图像和8张光照图像。本文采用了相同光照条件下130人的视点图像进行实验,其中100人用作训练,剩下30人用作测试,每人包括9个视角(从19张视点图像中间隔选取),图 2为实验人脸数据库图例。为了验证算法对噪声的鲁棒性,对测试图像进行加噪声(加性高斯噪声)处理,以比较各方法对图像噪声的鲁棒性,噪声强度分别为σ=0.01和σ=0.03像素。

      图  2  XJTU人脸姿态库像示例

      Figure 2.  The Sample Images of XJTU Pose Database

      PIE人脸数据库由美国卡耐基梅隆大学创建,包括不同光照下68位志愿者多种姿态和表情的共41 368幅人脸图像。其中,光照和姿态变化的图像都是在严格的控制条件下来采集的,目前该数据库已成为人脸算法领域的一个重要的测试集合之一。该数据库在平面外左右偏转方向上人脸姿态角度的变化范围为-90°~90°,每人有9个不同姿态,如图 3所示。由于该数据库每种姿态都有光照变化,因此,本文使用该人脸库验证算法对光照的鲁棒性。

      图  3  人脸姿态库示例

      Figure 3.  The Sample Images of PIE Pose Database

      CAS-PEAL人脸库是中国科学院建立的具有不同表情、姿态、装饰物、年龄和光照等变化的大规模人脸库。当前公开的人脸库版本(CAS-PEAL-R1)含有1 040人的30 864个不同条件下的样本。本文使用其中pose库(由167个人,每个人包含22种不同上下、左右偏转姿态组成)作姿态识别实验。本文将其人脸姿态划分为9类(左右偏转7类,上下偏转2类),取其中100人作为训练字典库,剩下的67人作为测试库,人脸姿态划分示例如图 4所示。为了验证算法对遮挡的处理能力,对测试图像进行遮挡处理。图 5为人脸图像加噪和遮挡的示例样本,测试时加噪图像样本数量为30×9=270,遮挡图像样本数量为67×9=603。

      图  4  CAS-PEAL-R1人脸姿态库示例

      Figure 4.  The Sample Images of CAS-PEAL-R1 Pose Database

      图  5  人脸图像噪声示例样本

      Figure 5.  The Sample Face Images with Noise and Occlusion

      本实验采用的图像均为手动对齐后的人脸图像,为了验证各方法对人脸图像光照、噪声和遮挡的鲁棒性,本文在手动对齐的人脸图像数据上进行训练,然后在有光照、噪声和遮挡的待测图像上进行人脸姿态判别,分别统计不同姿态的识别准确率。由于DLSR方法只进行无遮挡人脸左右姿态识别,为了公平比较,本文将在XJTU和PIE两个人脸库进行算法性能比较。在CAS-PEAL人脸库上验证本文算法对上下、左右偏转的识别能力和对遮挡的处理能力。实验时,每类姿态进行10次实验,所有实验均重复10次,统计其平均识别率。

      4种不同方法在XJTU人脸姿态库上的识别如图 6所示,从图中可以看出:图像无光照、噪声和遮挡变化时,3种方法都能得到很好的效果,本文方法和DLSR方法识别率都达到99%以上。但是当图像有噪声情况后,基于PCA和ICA的姿态判别方法性能下降很快(见图 6(b)6(c)),而本文方法基本保持不变,DLSR方法受噪声干扰比PCA和ICA方法小,比本文方法大。分析其原因,主要是DLSR采用图像分块的方法,此方案虽然在无光照、噪声和遮挡情况下获得了比本文好的结果。但是,图像块对噪声的敏感性要比整体图像大,导致其抗噪性不强。

      图  6  基于XJTU的不同姿态分类方法比较

      Figure 6.  The Compare Results with XJTU

      为了比较算法对光照的鲁棒性,采用PIE人脸姿态库作进一步实验,实验结果如图 7所示。从图中可以看出,当人脸出现光照变化时,PCA和ICA方法识别率急剧下降,而DLSR和本文方法基本比较稳定。由于本文采用的Gabor特征具有光照和表情不变性,因此本文方法比DLSR方法更具稳定性。

      图  7  基于PIE的不同姿态分类方法比较(有光照变化)

      Figure 7.  The Comparing Results with PIE (with Illumination)

      为了验证本文算法对遮挡的鲁棒性,本文对测试人脸加长方形方块进行遮挡模拟实验。采用本文方法得到的9类不同姿态的混淆矩阵识别结果如表 1所示,表中对角线加粗部分的识别率为正确分类的概率,其他部分表示错分的概率(本来属于对角线类别,但分到其它类别的概率),每一行相加为1。为了突出本文方法的优势,表 2给出了采用DLSR方法进行遮挡模拟实验的结果。而PCA和ICA方法在遮挡模拟实验中其识别效果较差平均识别率低于70%,基于篇幅限制考虑并没有给出其混淆矩阵结果。对比表 1表 2可以看出,本文方法在处理遮挡人脸图像时有优势,这是由于本文方法加了遮挡字典的缘故而导致。

      表 1  本文方法遮挡人脸姿态分类混淆矩阵结果

      Table 1.  Confusion Matrix of Face Pose Classi Flcation on the Occlusion Database of the Proposed Method

      类别 1 2 3 4 5 6 7 8 9
      1 1
      2 0.020 7 0.964 3 0.015
      3 0.026 5 0.933 0.040 2
      4 1
      5 0.975 0.025
      6 0.1 0.867 0.033
      7 1
      8 0.013 0.01 0.002 0.975
      9 0.003 0.015 0.002 0.98

      表 2  DLSR方法遮挡人脸姿态分类混淆矩阵结果

      Table 2.  Confusion Matrix of Face Pose Classiflcation on the Occlusion Database of DLSR

      类别 1 2 3 4 5 6 7 8 9
      1 0.955 0.02 0.025
      2 0.030 7 0.920 0 0.035 0.010 0.004 3
      3 0.046 0.900 0.050 0.004
      4 0.10 0.875 0.025
      5 0.014 0.961 0.025
      6 0.103 0.867 0.030
      7 0.98 0.02
      8 0.013 0.01 0.002 0.05 0.920 0.005
      9 0.015 0.002 0.003 0.03 0.95

      为了进一步说明本文算法的性能,表 3给出了几种算法的平均运行时间(单位:s)比较结果(配置为:hp Core i3 M330 2.13GHz 2GB, Matlab 2012R)。从表中可以看出:本文算法的运行时间多于线性子空间方法,低于DLSR方法。但是,本文算法对人脸噪声和光照变化的鲁棒性是线性子空间方法所不能比拟的。

      表 3  运行时间比较/s

      Table 3.  Running Times/s

      人脸库 算法
      PCA ICA DLSR 本文算法
      XJTU 0.153 0.194 0.643 0.360
      PIE 0.152 0.195 0.571 0.360
      CAS-PEAL 0.163 0.214 0.600 0.400
    • 人类可以轻易地进行人脸姿态识别是因为人们通过大量训练学习的结果。本文仿照人类训练学习机制进行人脸姿态超完备字典的构建与学习,独特性地提出基于字典学习与稀疏表示的人脸姿态识别方法。为了使算法更具鲁棒性和可行性,本文采用Gabor特征作为人脸姿态图像的特征,并在字典训练学习中加入类别约束信息使字典不但具有重建性能还具有分类性能。同时通过构建人脸姿态图像遮挡字典的方法解决人脸遮挡问题。实验结果表明本方法不但具有稀疏表示人脸识别方法(SRC)中对光照和遮挡的鲁棒性,同时还能克服SRC中的“小样本”问题。SRC要求训练样本“足够”多,这在实际应用中有时是相当苛刻的。而基于SRC的姿态分类方法却能克服“小样本”问题。因为人脸姿态离散化为有限类(假定9类),每类包含100个姿态样本,总共也只需900个样本,这在现实中很容易满足。因此,相比于人脸识别问题,基于稀疏表示的分类方法更适合于姿态识别问题。

参考文献 (21)

目录

    /

    返回文章
    返回