-
随着互联网、物联网、云计算等的迅猛发展,信息社会已经步入大数据时代。基于人工智能的数据处理方法在大数据时代具有优越性[1]。行人检测是人工智能方法在视频大数据中的典型应用,其在机器人、智能交通[2]等领域也有着广泛的应用。行人的身材、姿势、衣着和视角变化极大,光照变化、背景场景复杂以及摄像头自身的移动和晃动,都提升了行人检测问题的难度。在拥挤的场景下进行行人检测更是一个难点。
目前,主流的行人检测算法主要是基于统计分类方法,通过提取人体的各种特征,然后利用模式识别的方法进行分类。最具影响的统计分类方法是Dalal提出的基于梯度方向直方图(histogram of oriented gradient,HOG)特征来描述行人的方法[3],由于该特征细致刻划了图像局部区域的梯度强度以及梯度方向的分布情况,该分布情况对局部对象外观和形状可以进行很好的描述,因而表现出了优良的检测性能。文献[4-5]采用Boosted Cascade算法进行行人检测,增加了HOG特征的个数,明显提升了检测速度,但是该方法延长了训练时间; 黄茜等[6]运用积分向量图来计算HOG特征,使用线性SVM(support vector machine)作为弱分类器进行级联训练,并解决了SVM的二次规划问题,缩短了计算时间。文献[7, 8]算法通过提取多特征的方式,提升了行人检测对环境的鲁棒性。文献[9]在提取多特征的基础上,改进图像金字塔,实现了较为稳健的快速行人检测。然而,这些算法无法克服部分遮挡的影响。Felzenszwalb等[10]提出了形变模型(deformable part model,DPM),采用整体、部位双层模型进行检测,在一定程度上克服了部分遮挡。文献[11]提出了级联形变模型算法(cascade deformable part model,CDPM),在牺牲少量检测精度的条件下,明显缩短了检测时间。文献[12]引入Mixture Model加强了对密集人群的检测效率。文献[13]对多行人进行建模,进一步地提升了检测算法在密集人群中的识别效率。此外,文献[14]对当前流行的算法进行了对比分析。
DPM模型具有很强的鲁棒性,然而,该模型算法复杂度较高,且需要通过图像金字塔来保证尺度不变性,进一步约束了算法的效率。针对上述问题,本文提出了一种基于稀疏多尺度分割和级联形变模型的行人检测算法,首先设计稀疏多尺度图像分割算法来提取可能存在行人的区域,缩小检测范围,剔除大量干扰区域,完成初级检测,然后再集成级联DPM模型在分割区域进行精细行人检测,实现由粗到细的快速行人检测。
本文提出的快速行人检测算法集成了训练模型、稀疏多尺度分割和精细检测3个阶段,系统框架如图 1所示。本文首先运用LSVM(latent support vector machine)方法[10]离线训练行人模型,然后通过稀疏多尺度图像分割,快速提取感兴趣区域,缩小检测范围,剔除大量背景区域,实现初级检测;再集成级联形变模型在感兴趣区域进行多尺度精细检测,最终完成稳健且高效的行人检测。
-
DPM算法是通过构建图像金子塔,并计算对应HOG特征形成HOG金子塔,实现对不同尺度的行人进行检测,保证其尺度不变性。但HOG金字塔的构建也大幅增加了算法的检测时间。行人具有较为明显的纹理特征,而背景中存在着大量诸如地面、天空、玻璃等纹理较少的事物,因此,本文设计基于图像局部熵的稀疏多尺度分割,在完成快速初级检测的同时,减少了HOG特征的计算范围。
-
设Ω是RN的一个有界子集,I:Ω→[0, L]表示灰度图像。假定图像只有两个感兴趣的区域,且每个区域自身都有相似的特征,即目标区域A和背景区域B。为了对单个区域的相应特征进行局部比较,本文采用局部熵进行描述。
任意一个点x∈Ω,设Wx, r是以x为中心、r为半径的圆形检测窗口函数,则图像灰度级局部概率密度估计定义为:
(1) 式中,y∈[0, L]是灰度值;|•|表示点集的个数。
由香农第二定理[15]可知,图像局部熵为:
(2) 式中, 灰度y满足0≤y≤L。
图像局部熵具有亮度不变性,且能较好地表述纹理特征,十分适合行人的粗分割。
-
本文提出的稀疏多尺度分割算法的具体流程如图 2所示。定义Cs=Ω(Is)为图像I在s尺度上的HOG特征,采样尺度从s=1开始,逐级下降。对所有尺度进行熵空间的映射同样会耗费大量时间,为此,本文只在尺度s∈{1/2, 1/4, …}处进行熵空间映射、形态学滤波,其他尺寸依据最近尺寸的分割区域进行等比映射,从而快速而准确地建立精简图像金字塔。最后,计算金字塔的HOG特征,完成精简HOG金字塔的构建,实现基于图像多尺度分割的初级检测。
-
经典的HOG[3]算法具有很好的光照不变性和几何不变性,表现了较好的鲁棒性。然而,由于行人是非刚体目标,当行人行走或者相机拍摄角度发生变化时,其部分几何特征也在改变,因此,单纯的HOG算法具有局限性。针对这个问题,DPM模型作了以下改进:①增加部位滤波器,通过计算各个部位的匹配情况,提升对目标形变的适应性;②考虑目标部位和整体之间的位置关系,模拟行人身体的形变规律,进一步提升对行人形变的适应性;③依据行人横纵比分类,训练多模型(正面、侧面)[11],提升对多角度问题的鲁棒性。
-
本文算法在精细检测阶段集成的DPM模型由全局滤波器F和部位模型(P1,P2,…,Pn)组成,其中Pi=(Fi,vi,si,ai,bi)。这里的Fi是第i部位的滤波器;vi是二维向量,用于描述第i部位窗口中心相对于全局窗口的布局情况;si表示窗口的尺寸;ai、bi是第i部位分数测量函数的两个系数。每个部位模型指定一个空间模型和一个部位滤波器,空间模型为每个局部定义了几个其相对检测窗口的布局和每个布局对应的形变成本。一、二级部位模型是根据行人特征构造,行人模型采用扫描窗口的方式进行检测。检测窗口的分数是所有滤波器的分数减去形变花费。全局滤波器和部位滤波器的分数都是通过计算点集在窗口中的HOG特征得出。其中,全局滤波器是基于Dalal-Triggs模型[1],部位滤波器所用特征的空间分辨率是全局滤波器的两倍。
模型在HOG金字塔中的布局用z=(p0,…, pn)表示,其中当i=0时,pi=(xi,yi,li)表示全局滤波器的位置;当i>0时,它表示第i部位的布局。本文假设部位滤波器的HOG单元尺寸是全局滤波器的一半。每个布局可能的分数是由每个滤波器的分数(数据条款)加上每个部位相对于全局滤波器的布局分数(空间条款)。具体计算公式如下:
(3) 式中,(
, )=((xi, yi)-2(x, y)+vi)/si为第i部位相对于根滤波器的布局。 和 的取值范围为[-1, 1]。 -
由于DPM模型在计算n个根滤波器匹配得分的同时,还需计算8n个部位滤波器的匹配得分和空间变换花费,导致算法复杂度远高于其他算法[3]。为了进一步提升行人检测的速度,本文算法通过集成级联算法[11]来计算每个部位相对根滤波器最优的布局以及得分,然后运用一系列阈值来减少贡献很小的部位滤波器,缩小计算区域,最终进一步提升检测速度。DPM模型中根滤波器和部位滤波器是采用星型模型链接的,如图 4所示。图 4分别为行人模型的根滤波器、8个部位滤波器和星形模型。滤波器用于提取图像金字塔中所有图像的HOG特征,星形模型用于描述所有滤波器之间的空间关系。在星形模型中,每个部位滤波器的中心(蓝色圆圈)只和根滤波器的中心(红色圆圈)相连。依据DPM模型的定义,检测窗口的得分可以表示为:
(4) (5) 式中,v0为根部位; vi, …, vn为额外的n个部位; Ω为图像中所有部位的位置信息空间; ω∈Ω表示一个部位所在的位置和尺度; mi(ω)代表滤波器在密集特征金字塔中的回馈值,ai(ω)表示每个部位的理想位置;di(δ)描述每个部位的在空间上的形变花费;scorei(η)是指一个部位的最大分数。式(5)通过计算星形模型中部位滤波器与根滤波器之间的位置变化关系得到形变花费,式(4)则综合统计各滤波器的匹配分数和形变花费得到最终得分score(ω)。如果score(ω)≥T,则为目标区域,反之,为背景区域。级联算法如图 5所示。
假设星形结构模型有n+1个模块,则级联算法需要一个全局阈值T和2n个中间阈值。其中,
是用来存储mi(ω)的中间计算值,来避免重复计算。对于每个部位ω∈Ω,本文在n个层次上计算其得分scorei(ω)。变量s用来累计在所有层次上的总分。在第i层,本文用变量p来计算部位vi的得分scorei(η)。数据的阈值用((t1, t′1), …, (tn, t′n)和T储存,检测窗口为D。在整个计算过程中,有两次机会减少计算量:
1) 估计缩减,如果最初第i个部位在ω处的得分低于ti,则在ω处就不会估计部位vi到部位vn的得分。
2) 形变缩减,如果最初第i个部位的得分减去di(δ)的分数低于t′i,则算法1会跳过部分δ。
当以上两个步骤的分数小于临界阈值,其对score(ω)超过最终阈值T的贡献可以忽略不计,因此,可以在不影响精度的情况下缩减计算量,减少检测时间。其中,阈值的初值采用PAC学习[16]的方式获得。
-
为了证明提出算法的鲁棒性,本文利用3.07 GHZ主频CPU、3 GB内存的计算机在Matlab 2009b仿真平台上,对公开数据集TUD-Crossing[17]和TUD-Pedestrian[17]进行了测试。
本文的训练数据集是INRIA[1]的子集,训练方法采用LSVM[8]。所有实验数据的基本信息如表 1所示。
表 1 实验数据
Table 1. Experiment Data
数据集 图片尺寸/(像素×像素) 数量 行人数 INIRA的子集 不定 2 000 4 560 TUD-Crossing 640×480 201 1 008 TUD-Pedestrian 720×576 250 311 为了评估算法的高效性,本文采用PR(precision-recall)曲线和平均精度(average precision, AP)来衡量DPM、CDPM(级联算法)和SDPM(本文算法)的检测精度,并通过统计3种算法的平均检测时间来对比检测速度。
-
图 6显示了本文算法在两个公开数据集上的检测效果。图中黑色区域为稀疏多尺度分割剔除的背景区域,红色矩形为检测到的具体行人区域。从图中可以看出,在测试数据集上,本文算法能检测到除了少量遮挡行人的所有行人。
表 2统计了3种算法在公开数据集TUD-Crossing和TUD-Pedestrian上的平均检测时间。由表 2可知,在尺寸为640像素×480像素的图片上进行行人检测时,在级联检测算法的基础上,本文算法将检测时间提升了37%;在尺寸为720像素×576像素的图片上进行检测时,本文算法将检测时间提升了27%。
表 2 平均检测时间对比/s
Table 2. Comparison of Mean Detection Time/s
数据集 DPM CDPM SDPM TUD-Crossing 6.836 1.402 0.885 TUD-Pedestrian 8.873 1.698 1.241 图 7(a)和图 7(b)分别统计了DPM、CDPM和SDPM在公开数据集TUD-Crossing和TUD-Pedestrian上的PR曲线和平均检测精度。其中,P代表查准率,R为查全率[10],查准率和虚警率的概率和为1,分别指被判定为正样本中的正样本和负样本的比例;查全率和漏检率的概率和也为1,分别指被正确判定的正样本和被判定遗漏的正样本占总正样本的比例。平均检测精度表示不同查全率的点上的正确率的平均。此外,PR曲线越靠近统计图的上方,精度越高。由图 7可知,3种算法的precision-recall曲线重叠率极高,检测精度基本没有差异。此外,本文算法相比CDPM算法,在检测精度上还有微小提升(即减少了虚警率)。
1) 精度分析。本文在初级检测阶段,剔除了大量背景,减少了部分环境干扰,且为精细检测阶段保留了有效区域,因而降低了虚警率;
2) 效率分析。本文在初级检测阶段,平均花费0.15 s完成了图中50%左右背景的剔除,避免了精细检测阶段大量不必要的复杂计算,因而明显提升了检测速度。
-
本文提出了一种基于图像多尺度分割和级联形变模型的行人检测算法。该算法运用图像多尺度分割算法提取可能存在行人的区域,缩小检测范围,剔除大量干扰区域,完成初级检测,再集成级联形变模型在分割区域进行精细行人检测,实现由粗到细的快速行人检测。实验结果表明,本文提出的算法实现了快速的粗分割,降低了虚警率,同时将平均检测时间提升了32%。未来的工作将进一步分析行人运动特征,结合跟踪算法实现实时且稳健的行人检测。
A Pedestrian Detection Algorithm Based on Sparse Multi-scale Image Segmentation and Cascade Deformable Part Model
-
摘要: 行人检测是视频大数据中提取信息的关键技术之一,是视频大数据挖掘的关键环节。提出了一种基于稀疏多尺度分割和级联形变模型的行人检测算法。首先设计基于图像纹理的稀疏多尺度分割算法提取潜在行人区域,完成初级多尺度检测;同时缩小检测范围,剔除大量背景区域;再基于级联形变模型在候选特征区域进行精细检测,最终实现由粗到细的快速行人检测。在TUD-Crossing和TUD-Pedestrian等公开数据集上对算法进行了测试。实验结果表明,本文算法降低了虚警率,提升了检测速度。Abstract: Pedestrian detection is one of the key technologies in the large video data to extract information, which is an important link in the process of large video data mining. This is a difficult problem because pedestrian can vary from place to place and time to time. The changes in illumination and viewpoint, variability in shape, non-rigid deformations all can cause variations. In order to achieve a fast and robust pedestrian detection, this paper proposes a pedestrian detection algorithm based on sparse multi-scale image segmentation and cascade deformable part model. Through the sparse multi-scale image segmentation algorithm based on texture, lots of background region is eliminated and the interesting area is extracted. In the segmented interesting area, a general method is used for building cascade classifiers from part-based deformable models such as pictorial structures. Pictorial structures describe objects by a collection of parts included in a deformable configuration. Each part stands for local appearance properties of a part of the body while the deformable configuration is presented by spring-like connections between parts. The model focuses primarily on the case of star-structured models and show how a simple algorithm based on partial hypothesis pruning can speed up object detection. A discriminative procedure called Latent SVM is used to train these models. Lots of experiments are conducted on public data sets TUD-Crossing and TUD-Pedestrian. Experimental results show that little detection accuracy is increased by our algorithm, and the detection speed is improved obviously.
-
表 1 实验数据
Table 1. Experiment Data
数据集 图片尺寸/(像素×像素) 数量 行人数 INIRA的子集 不定 2 000 4 560 TUD-Crossing 640×480 201 1 008 TUD-Pedestrian 720×576 250 311 表 2 平均检测时间对比/s
Table 2. Comparison of Mean Detection Time/s
数据集 DPM CDPM SDPM TUD-Crossing 6.836 1.402 0.885 TUD-Pedestrian 8.873 1.698 1.241 -
[1] O'Leary D E. Artificial Intelligence and Big Data[J]. IEEE Intelligent Systems, 2013, 28(2):96-99 doi: 10.1109/MIS.2013.39 [2] 李德仁, 李清泉, 杨必胜.3S技术与智能交通[J].武汉大学学报·信息科学版, 2008, 33(4):331-336 http://ch.whu.edu.cn/CN/abstract/abstract1500.shtml Li Deren, Li Qingquan, Yang Bishen, et al. Techniques of GIS, GPS and RS for the Development of Intelligent Transportation[J]. Geomatics and Information Science of Wuhan University, 2008, 33(4):331-336 http://ch.whu.edu.cn/CN/abstract/abstract1500.shtml [3] Dalal N, Triggs B. Histograms of Oriented Gradients for Human Detection[C]. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, San Diego, CA, USA, 2005 http://cn.bing.com/academic/profile?id=2161969291&encoded=0&v=paper_preview&mkt=zh-cn [4] Zhu Qiang, Shai A, Chert Y M. Fast Human Detection Using a Cascade of Histograms of Oriented Gradients[C]. 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, New York, USA, 2006 [5] Viola P, Jones M J. Robust Real-time Face Detection[J]. International Journal of Computer Vision, 2004, 57(2):137-154 doi: 10.1023/B:VISI.0000013087.49260.fb [6] 黄茜, 顾杰峰, 杨文亮.基于梯度向量直方图的行人检测[J].科学技术与工程, 2009, 9(13):3646-3651 http://www.cnki.com.cn/Article/CJFDTOTAL-KXJS200913015.htm Huang Qian, Gu Jiefeng, Yang Wenliang. Pedestrian Detection Based on Histograms of Oriented Gradients[J]. Science Technology and Engineering, 2009, 9(13):3646-3651 http://www.cnki.com.cn/Article/CJFDTOTAL-KXJS200913015.htm [7] Wojek C, Schiele B. A Performance Evaluation of Single and Multi-feature People Detection[J]. Pattern Recognition, 2008(7):82-91 doi: 10.1007/978-3-540-69321-5_9 [8] Wang Xiaoyu, Han T X, Yan Shuicheng. An HOG-LBP Human Detector with Partial Occlusion Handling[C]. 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Miami, Florida, USA, 2009 [9] Dollár P, Belongie S, Perona P. The Fastest Pedestrian Detector in the West[C]. BMVC 2010, Aberystwyth, UK, 2010 [10] Felzenszwalb P, McAllester D, Ramanan D. A Discriminatively Trained, Multiscale, Deformable Part model[C]. 2008 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Anchorage, Alaska, USA, 2008 [11] Felzenszwalb P F, Girshick R B, McAllester D. Cascade Object Detection with Deformable Part Models[C]. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, San Francisco, CA, USA, 2010 [12] Felzenszwalb P F, Girshick R B, McAllester D, et al. Object Detection with Discriminatively Trained Part-based Models[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2010, 32(9):1627-1645 doi: 10.1109/TPAMI.2009.167 [13] Ouyang Wanli, Wang Xiaogang. Single-pedestrian Detection Aided by Multi-pedestrian Detection[C]. 2013 IEEE Conference on Computer Vision and Pattern Recognition, Portland, OR, USA, 2013 [14] Dollar P, Wojek C, Schiele B, et al. Pedestrian Detection:An Evaluation of the State of the Art[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2012, 34(4):743-761 doi: 10.1109/TPAMI.2011.155 [15] Shannon C E. A Mathematical Theory of Communication[J]. ACM SIGMOBILE Mobile Computing and Communications Review, 2001, 5(1):3-55 doi: 10.1145/584091 [16] Kearns M J, Vazirani U V. An Introduction to Computational Learning Theory[M]. Massachusetts:MIT Press, 1994:1-7 [17] Andriluka M, Roth S, Schiele B. People-tracking-by-detection and People-detection-by-tracking[C]. 2008 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Anchorage, Alaska, USA, 2008 -