留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于Gabor特征和稀疏表示的激光打印文档鉴别

方天红 陈庆虎 鄢煜尘 周前进

方天红, 陈庆虎, 鄢煜尘, 周前进. 基于Gabor特征和稀疏表示的激光打印文档鉴别[J]. 武汉大学学报 ● 信息科学版, 2016, 41(11): 1550-1555. doi: 10.13203/j.whugis20140896
引用本文: 方天红, 陈庆虎, 鄢煜尘, 周前进. 基于Gabor特征和稀疏表示的激光打印文档鉴别[J]. 武汉大学学报 ● 信息科学版, 2016, 41(11): 1550-1555. doi: 10.13203/j.whugis20140896
FANG Tianhong, CHEN Qinghu, YAN Yuchen, ZHOU Qianjin. Laser Print Document Identification Based on Gabor Feature and Sparse Representation Classification[J]. Geomatics and Information Science of Wuhan University, 2016, 41(11): 1550-1555. doi: 10.13203/j.whugis20140896
Citation: FANG Tianhong, CHEN Qinghu, YAN Yuchen, ZHOU Qianjin. Laser Print Document Identification Based on Gabor Feature and Sparse Representation Classification[J]. Geomatics and Information Science of Wuhan University, 2016, 41(11): 1550-1555. doi: 10.13203/j.whugis20140896

基于Gabor特征和稀疏表示的激光打印文档鉴别

doi: 10.13203/j.whugis20140896
基金项目: 

公安部重大项目 2014JSYJA017

湖北省教育厅资助项目 B2015033

湖北工程学院科学研究项目 201511

详细信息
    作者简介:

    方天红, 博士生, 副教授, 主要从事图像处理与模式识别方面的研究。fthsg@163.com

  • 中图分类号: TP751;TP391.4

Laser Print Document Identification Based on Gabor Feature and Sparse Representation Classification

Funds: 

The Key Program of Public Security Ministry of China 2014JSYJA017

the Research Foundation of Education Bureau of Hubei Province B2015033

the Natural Science Foundation of Hubei Engineering University 201511

More Information
    Author Bio:

    FANG Tianhong, PhD candidate, associate professor, specializes in the image processing and pattern recognition. E-mail:fthsg@163.com

图(5)
计量
  • 文章访问数:  939
  • HTML全文浏览量:  72
  • PDF下载量:  269
  • 被引次数: 0
出版历程
  • 收稿日期:  2015-04-08
  • 刊出日期:  2016-11-05

基于Gabor特征和稀疏表示的激光打印文档鉴别

doi: 10.13203/j.whugis20140896
    基金项目:

    公安部重大项目 2014JSYJA017

    湖北省教育厅资助项目 B2015033

    湖北工程学院科学研究项目 201511

    作者简介:

    方天红, 博士生, 副教授, 主要从事图像处理与模式识别方面的研究。fthsg@163.com

  • 中图分类号: TP751;TP391.4

摘要: 为了解决计算机打印文档的自动鉴别问题,提出了Gabor特征结合稀疏表示的计算机激光打印文档鉴别算法。针对激光打印文档字符墨粉堆积纹理,提取字符图像的Gabor幅值特征,并将提取的特征进行主成分分析;最后利用不同的分类识别算法,对打印文档进行分类鉴别。在自建数据库上的实验结果表明了本文算法的有效性,打印文档源打印机准确鉴别率可达94.74%。

English Abstract

方天红, 陈庆虎, 鄢煜尘, 周前进. 基于Gabor特征和稀疏表示的激光打印文档鉴别[J]. 武汉大学学报 ● 信息科学版, 2016, 41(11): 1550-1555. doi: 10.13203/j.whugis20140896
引用本文: 方天红, 陈庆虎, 鄢煜尘, 周前进. 基于Gabor特征和稀疏表示的激光打印文档鉴别[J]. 武汉大学学报 ● 信息科学版, 2016, 41(11): 1550-1555. doi: 10.13203/j.whugis20140896
FANG Tianhong, CHEN Qinghu, YAN Yuchen, ZHOU Qianjin. Laser Print Document Identification Based on Gabor Feature and Sparse Representation Classification[J]. Geomatics and Information Science of Wuhan University, 2016, 41(11): 1550-1555. doi: 10.13203/j.whugis20140896
Citation: FANG Tianhong, CHEN Qinghu, YAN Yuchen, ZHOU Qianjin. Laser Print Document Identification Based on Gabor Feature and Sparse Representation Classification[J]. Geomatics and Information Science of Wuhan University, 2016, 41(11): 1550-1555. doi: 10.13203/j.whugis20140896
  • 打印文件检验[1-8]问题伴随着打印机设备的应用与普及出现,是一个新兴的研究领域。打印文件成为许多经济纠纷、刑事犯罪和信息安全领域的关键证据。对打印机打印文件的来源和真伪的鉴定,已成为现代信息安全领域的重要研究课题。随着打印机的普及,国内外开始对激光和喷墨等打印文件检验进行了研究。传统的打印文件检验[1-2]主要依靠人工进行,效率不高且容易出现主观或客观上的遗漏、错判等问题。现代的打印文档检验[3-8]将计算机技术引入检验过程,提取打印文档的各种打印特征。条带特征[3]是激光打印机的固有特征,是由于打印机内部器件转动速率变化,在打印图像上产生的细微灰度条纹;Ali等[4]利用灰度投影及频谱变换提取特征,取得良好的效果;Mikkilineni等[5]利用灰度共生矩阵(gray-level co-occurrence matrix, GLCM)方法,提取英文字符“e”的纹理特征;文献[6]利用打印字符边缘的粗糙度来识别打印机;文献[7]设计一种新的双极性Hausdorff对字符图像进行有效的匹配;文献[8]提取高倍显微放大打印字符中心区域稳定纹理来构造归一纹理图像,并提取图像纹理特征进行打印文档源打印机的认定。上述各种特征在源打印机识别中,均取得了一定的效果。在这里,提取打印文档英文字符“e”的Gabor幅值特征来提高源打印鉴别性能。Gabor滤波器[9-11]的频率和方向类似于人类的视觉系统,能捕捉突出的视觉属性,常用于纹理识别。不同打印机由于自身特性的不同,打印的字符在墨粉堆积纹理有明显的差异,并且具有一定的普遍性。基于Gabor滤波器特性,文中提取打印文档英文字符“e”的Gabor幅值特征,用于打印文档源打印机的鉴别。

    随着压缩感知(compressed sensing, CS)理论研究的兴起,有关稀疏表示(sparse representation classification, SRC)的研究成为当下研究的热点,在图像处理与模式分类领域发挥了重要的作用[12-13]。Wright等[12]人将SRC成功运用在人脸识别当中,提出了基于SRC的人脸识别方法,取得了良好的识别性能。SRC方法的核心思想是假设测试样本可以被所有训练样本的线性组合表示且系数向量是稀疏的,并利用稀疏重构算法求解稀疏系数,最后根据求得的稀疏表示系数,对测试样本进行分类。本文首先简要介绍了高倍显微放大图像的获取过程,图像进行相关预处理后,提取图像的Gabor幅值特征,并运用主成分分析(principal component analysis, PCA)方法对图像的Gabor幅值特征进行降维,最后利用稀疏表示方法进行分类鉴别。

    • 打印文件自动检验首先解决的是图像信息的获取,将文件转化为计算机可读取的数字图像,最简单的方法是使用扫描仪。但现有普通的扫描仪对打印文件细节的分辨率仍然较低,达不到打印文件检验的要求。在肉眼或者低放大倍数的情况下,不同打印机打印的相同内容几乎没有任何差异,为了观察相同内容的打印差别,开发了图像整体高倍放大扫描采集系统[14]图 1给出了扫描仪和放大采集系统对同一打印字符的采集效果图。图 1(a)为HP Scanjet 4850在4 800像素下扫描的图像;图 1(b)为本文的放大采集系统采集的字符图像,放大采集系统采集样本的主要步骤包括显微图像拼接、切分、尺寸归一化等操作。通过比较可以看出,放大采集系统采集的图像更清晰地显示了墨粉堆积纹理特征。图 2给出了4台不同打印机打印相同字符的细节图像,从中可以看出他们之间有显著的纹理差异。

      图  1  采集图像对比

      Figure 1.  Comparison of Scanning Image and the Microscopic Image

      图  2  四台不同打印机生成的墨粉堆积纹理比较

      Figure 2.  Comparison of Four Different Printers Toner Accumulation Texture

      由于每台打印机固有的机械、电气特性、墨粉的特性、甚至器件组合性能的不同,将对自身输出的打印字符造成墨粉堆积纹理的明显差异;而每种打印机的粉墨堆积纹理具有自己的规律,故不同的纹理可作为识别不同打印机的依据。

    • Gabor滤波器[11]定义为:

      (1)

      式中,z=(x, y)代表像素;μν分别代表方向和尺度;kμ, ν=kνeμ(这里kν=kmax/fνφμ=πμ/8,kmax是最大频率,f是核函数的间隔因子);σ是高斯窗宽度与波长的比值。如果取8个方向(μ=0, 1, …, 7)和5个尺度(ν=0, 1, …, 4),就可组成有40个Gabor滤波器的滤波器组,当kmax=π/2,σ=π,f=时,得到的Gabor小波核实值部分如图 3所示。

      图  3  Gabor小波核实值部分

      Figure 3.  Real Value of Gabor Wavelet Kernel

      Gabor特征是通过Gabor滤波器与图像I(z)进行卷积操作获得的,若I(z)表示打印文档字符图像的灰度分布,则I(z)和Gabor滤波器的卷积可表示为:

      (2)

      式中,“*”表示卷积运算; Gμ, ν(z)是复数,可以写成Gμ, v(z)=Mμ, v(z)·exp(μ, v(z)),Mμ, v(z)是幅值,θμ, v(z)是相位。Gabor幅值信息包含图像局部能量的变化,且幅值变化相对平稳,故将Gabor幅值作为图像特征的描述。

      两台不同打印机打印的字符“e”及在方向参数φμ=0(μ=0),尺度参数kν=π/8(ν=3)时提取的Gabor幅值特征如图 4所示。

      图  4  不同样本字符“e”及Gabor幅值特征

      Figure 4.  Different Sample Characters and Gabor Amplitude Features

      图 4中可以看出,两台不同品牌和型号的打印机打印的同一字符的纹理明显不同,字符的Gabor幅值特征主要集中在字符内部粉墨堆积特征部位,在相同的方向和尺度下,不同打印机打印的字符Gabor幅值特征有明显差异。

    • 对于5个尺度、8个方向上的幅值Mμ, v(z)分别通过均匀下采样,并且进行归一化,然后按列拉成列向量。这样,得到的Gabor特征矢量为:

      (3)

      式中,aμ, v(ρ)是通过下采样幅值矩阵Mμ, v(ρ)(z)按列连接生成的列向量。若图像大小为328像素×396像素的字符“e”,其生成的列向量大小为35 640×1。如果有K类样本,将所有的训练样本子集组合成训练样本集矩阵A=[A1, A2, …, AK],其中ARm×nn=n1+n2+, …, +nK,假设有i类训练样本子集Ai=[si, 1, si, 2, …, si, ni]∈Rm×ni,其中si, j(j=1, 2, …, ni)表示来自第i类的第jm维样本向量。所有的训练样本的Gabor幅值特征矩阵可表示为G=χ(A)=[χ(A1), χ(A2), …, χ(AK)],其中χ(Ai)=[χ(si, 1), χ(si, 2), …, χ(si, ni)],测试样本y相应的为χ(y)。由于得到的样本Gabor幅值特征维数较高,故需要对Gabor幅值特征进行PCA降维,PCA算法的主要步骤如下。

      1) 计算矩阵(GG)的外积矩阵St,其中St=(GG)T(GG),是样本均值矩阵。

      2) 计算矩阵St所对应的特征矩阵和特征向量矩阵Q,其中特征值和特征向量一一对应,特征值按从大到小的顺序排列。

      3) 计算对角矩阵ΛΛ=diag[λ0, λ1, …, λN-1]∈RN×N,且λ0λ1≥…≥λN-1

      4) 利用GΛQ计算特征向量矩阵WW=GQΛ-1/2

      利用特征向量矩阵也就是利用主分量矩阵W,实现对数据χ(y)的降维和特征提取。

    • 文献[12]提出的SRC分类方法的核心思想是测试样本可以表示为所有训练样本的线性组合且系数向量是稀疏的。在这里,假设有i类训练样本子集Di=[xi, 1, xi, 2, …, xi, ni]∈Rm×ni,其中xi, j(j=1, 2, …, ni)表示来自第i类的第jm维样本向量。假设来自第i类的测试样本tRm可表示为,其中αi=[αi, 1, αi, 2, …, αi, ni]TRni表示样本系数向量。如果有K类样本,将所有的训练样本子集组合成训练样本集矩阵D=[D1, D2, …, DK],其中DRm×nn=n1+n2+…+nK,则测试样本tRm可以被训练样本集矩阵表示为t=,其中α=[α1; α2; …; αK]=[0, …, 0, αi, 1, αi, 2, …, αi, ni, 0, …, 0]T,理想情况下,只有第i类的值是非0元素,其他系数值均为0,因此,系数向量α是稀疏的。系数向量α中包含了大量有利于分类判别的信息,只要准确的得到系数向量α,就能对测试样本进行正确的分类。

      若矩阵D表示训练样本的Gabor幅值特征矩阵G经PCA特征降维后的结果,t表示测试样本的Gabor幅值特征χ(y)向特征向量矩阵W投影后的系数,则基于Gabor特征的稀疏表示(Gabor feature based SRC,GSRC)分类算法步骤可简要描述如下。

      1) 将训练样本集矩阵D和测试样本t进行归一化处理。

      2) 求解l1最小优化问题:

      3) 计算重构残差:i∈1, 2, …, K,其中是与第i类样本对应的系数向量。

      4) 得到测试样本t的识别结果:identity(t)=argminiri(t),根据测试样本与重构样本之间的残差最小原则对测试样本进行分类。对步骤2)求解稀疏解有多种方法,本文采用文献[15]的方法进行最优求解。稀疏表示方法能够自适应地选择所有表示中最稀疏的一种来表示待识别样本,并拒绝所有其他不稀疏的表示,本文将稀疏表示的这种判别性,用于打印文档的鉴别。

    • 为了验证上述算法的可行性,将该算法应用于打印文档鉴别,采用自建的显微放大字符样本库进行实验。实验平台为64位Win7操作系统的PC机,CPU主频3.2GHz,内存为8G,在matlab2012b软件平台下使用M语言进行软件编程。验证实验建立了10台黑白激光打印机,包括CANON、HP和SHARP等常见品牌。每台打印机采用Times New Roman四号字打印两份英文文档,从中选取英文中出现频率最高的字母“e”[5],一份文档中随机选取19个不同位置的字符“e”用于训练,另一份文档中19个不同位置的字符“e”用于测试。字符“e”的大小归一化为328像素×396像素,Gabor滤波器参数方向μ={0, 1, 2, 3, 4, 5, 6, 7},尺度ν={0, 1, 2, 3, 4}。为了比较分类器的性能,实验将SRC算法分别与K-近邻法(K-nearest neighbor,KNN)和支持向量机法(support vector machine,SVM)进行对比。

    • KNN算法由Cover和Hart于1968年提出[16],是最近邻算法的扩展。其基本思路是,在所有的N个样本中找到与测试样本的k个最近邻者,其中各类别所占个数表示为ki,定义的判别函数为gi(x)=ki, i=1, 2, …, c。KNN一般取k为奇数,与投票表决一样,避免因两种票数相等而难以决策,其决策规则为, i=1, 2, …, c。在样本Gabor幅值特征维度为180时,若k取1、3、5,相应的准确鉴别率分别为78.42%、79.47%、77.37%。可以看出,当k取3时打印文档鉴别率相对较高,故取k=3。

    • Vapnik等[17]提出的支持向量机学习算法其核心思想是通过在两类数据样本间建立最优分类线,使两类数据能够以最大的分类间隔相互分离,在模式识别领域有着广泛的应用。LibSVM[18]是通用SVM软件工具包,主要用于解决分类、回归和分布估计等问题,LibSVM算法是SVM的一种,其计算原理与支持向量机算法一致。在应用LibSVM工具包的过程中,需要归一化数据,选择适合的核函数,选取最佳惩罚参数c和核函数参数g等。在打印文档的鉴别实验中,取径向基核函数能获得较好的分类效果。利用文献[19]中提到的参数寻优方法,求解最佳参数cg。在样本Gabor幅值特征维度为180维,核函数取径向基函数,参数c取最佳值5.656 9,参数g取最佳值1.525 9×10-5时,LibSVM算法的平均准确鉴别率可达到93.68%。

    • 图 5给出了采用KNN、LibSVM和SRC分类识别算法时,打印文档准确鉴别率随样本Gabor幅值维度变化的情况。本文从算法效率的角度对比3种分类器的性能,在Gabor特征维度均为180时,KNN消耗的运算时间为187.19 s,LibSVM算法消耗的运算时间为188.51 s,而SRC消耗的运算时间为219.77 s,可以看出KNN和LibSVM算法运算复杂度相当,SRC算法运行时间略高于其他两种算法。为了进一步验证算法GSRC的性能,减少训练样本,相对增大测试样本。实验中,从每台打印机的19个训练样本“e”中随机的抽取10个样本用于训练,测试样本数目维持19个不变。在Gabor幅值特征维度为90,重复GSRC实验30次,得到的平均准确鉴别率为90.44%。

      图  5  不同分类器的准确鉴别率

      Figure 5.  Correct Identification Rate of Different Classifiers

      图 5中可以看出,在样本不同维度的Gabor幅值特征下,3种分类器体现出了不同的识别性能,识别性能最优的是SRC,LibSVM分类器准确鉴别率略低于SRC,而KNN分类器算法鉴别率远远低于其他两种。GSRC方法在PCA特征维度为180时,打印文档最佳准确鉴别率可达94.74%。文献[7]设计了一种新的双极性Hausdorff距离用于打印文档的鉴别与检索,在分类鉴别实验中,打印文档准确鉴别率可达90%。为比较本文算法与文献[7]的鉴别性能,在本文的样本数据集上运行文献[7]中的算法,打印文档的准确鉴别率是86.84%,低于本文算法的最佳准确鉴别率。文献[8]采用纹理合成的方法,打印文档最高鉴别率约为90%,在进行鉴别实验前,需先对样本进行纹理合成,一定程度上增加了算法的处理时间和复杂度。从以上的实验结果可以看出,GSRC算法的打印机准确鉴别率高于文献[7, 8]中的实验结果;提取样本的Gabor幅值特征能反映粉墨堆积纹理细微的变化,对打印文档的鉴别是一种有效且可靠的特征;与KNN和SVM分类器相比,SRC分类器具有良好的分类效果,其采用稀疏重构算法求解稀疏系数,并利用稀疏系数重构残差,根据测试样本与重构样本之间的残差最小原则对测试样本进行分类;虽然SRC算法的运算复杂度较KNN和LibSVM算法有所上升,但是在实验中为了得到较高的鉴别率,KNN中的参数K和LibSVM中的参数cg等需要经过多次优化才能确定,而SRC算法的参数选择相对简单;即使在每类测试样本相对训练样本较大的情况下,GSRC算法仍然可以获得较好的鉴别性能,故GSRC算法不失为一种有效的算法。

    • 考虑Gabor幅值特征对激光打印字符局部纹理变化的鲁棒性,本文提出了Gabor特征结合稀疏表示的打印文档鉴别算法。首先介绍了打印文档整体高倍放大图像的采集,图像进行相关的预处理后,提取图像Gabor幅值特征,并对Gabor幅值特征进行PCA特征提取,最后利用稀疏表示方法进行分类鉴别。对比的实验结果表明,样本的Gabor幅值特征在打印文档的鉴别中是一种有效且可靠的特征,Gabor幅值特征结合SRC分类识别的算法,提高了打印文档的鉴别性能,准确鉴别率可达94.74%,具有重要的实际应用价值。下一步的工作是如何改进算法提高源打印机的准确鉴别率和减少算法的运行时间。本文是基于相同字的打印文档鉴别,基于不同字的打印文档鉴别将是另一个研究重点。

参考文献 (19)

目录

    /

    返回文章
    返回