留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于稀疏多尺度分割和级联形变模型的行人检测算法

吕瑞 邵振峰

吕瑞, 邵振峰. 基于稀疏多尺度分割和级联形变模型的行人检测算法[J]. 武汉大学学报 ( 信息科学版), 2016, 41(11): 1544-1549. doi: 10.13203/j.whugis20140212
引用本文: 吕瑞, 邵振峰. 基于稀疏多尺度分割和级联形变模型的行人检测算法[J]. 武汉大学学报 ( 信息科学版), 2016, 41(11): 1544-1549. doi: 10.13203/j.whugis20140212
LV Rui, SHAO Zhenfeng. A Pedestrian Detection Algorithm Based on Sparse Multi-scale Image Segmentation and Cascade Deformable Part Model[J]. Geomatics and Information Science of Wuhan University, 2016, 41(11): 1544-1549. doi: 10.13203/j.whugis20140212
Citation: LV Rui, SHAO Zhenfeng. A Pedestrian Detection Algorithm Based on Sparse Multi-scale Image Segmentation and Cascade Deformable Part Model[J]. Geomatics and Information Science of Wuhan University, 2016, 41(11): 1544-1549. doi: 10.13203/j.whugis20140212

基于稀疏多尺度分割和级联形变模型的行人检测算法

doi: 10.13203/j.whugis20140212
基金项目: 

国家自然科学基金 61172174

国家重大设备专项基金 2012YQ16018505

国家科技支撑计划 2013BAH42F03

详细信息
    作者简介:

    吕瑞, 硕士, 主要从事计算机视觉、机器学习相关研究。vrui@whu.edu.cn

    通讯作者: 邵振峰, 博士, 教授。shaozhenfeng@whu.edu.cn
  • 中图分类号: P237;TP751;TP391

A Pedestrian Detection Algorithm Based on Sparse Multi-scale Image Segmentation and Cascade Deformable Part Model

Funds: 

The National Natural Science Foundation of China 61172174

the National Major Equipment Projects 2012YQ16018505

the Technology Support Program of China 2013BAH42F03

More Information
  • 摘要: 行人检测是视频大数据中提取信息的关键技术之一,是视频大数据挖掘的关键环节。提出了一种基于稀疏多尺度分割和级联形变模型的行人检测算法。首先设计基于图像纹理的稀疏多尺度分割算法提取潜在行人区域,完成初级多尺度检测;同时缩小检测范围,剔除大量背景区域;再基于级联形变模型在候选特征区域进行精细检测,最终实现由粗到细的快速行人检测。在TUD-Crossing和TUD-Pedestrian等公开数据集上对算法进行了测试。实验结果表明,本文算法降低了虚警率,提升了检测速度。
  • 图  1  快速行人检测算法框架

    Figure  1.  Framework of Pedestrian Detection Algorithm

    图  2  图像多尺度分割

    Figure  2.  Multi-scale Image Segmentation

    图  3  初级检测结果

    Figure  3.  Results of Coarse Detection

    图  4  级联星形模型

    Figure  4.  The Cascade Star Model

    图  5  级联算法流程图

    Figure  5.  The Flowchart of Cascade Algorithm

    图  6  检测效果

    Figure  6.  Resuts of Detection

    图  7  检测精度结果

    Figure  7.  Results of Detection Accuracy

    表  1  实验数据

    Table  1.   Experiment Data

    数据集 图片尺寸/(像素×像素) 数量 行人数
    INIRA的子集 不定 2 000 4 560
    TUD-Crossing 640×480 201 1 008
    TUD-Pedestrian 720×576 250 311
    下载: 导出CSV

    表  2  平均检测时间对比/s

    Table  2.   Comparison of Mean Detection Time/s

    数据集 DPM CDPM SDPM
    TUD-Crossing 6.836 1.402 0.885
    TUD-Pedestrian 8.873 1.698 1.241
    下载: 导出CSV
  • [1] O'Leary D E. Artificial Intelligence and Big Data[J]. IEEE Intelligent Systems, 2013, 28(2):96-99 doi:  10.1109/MIS.2013.39
    [2] 李德仁, 李清泉, 杨必胜.3S技术与智能交通[J].武汉大学学报·信息科学版, 2008, 33(4):331-336 http://ch.whu.edu.cn/CN/abstract/abstract1500.shtml

    Li Deren, Li Qingquan, Yang Bishen, et al. Techniques of GIS, GPS and RS for the Development of Intelligent Transportation[J]. Geomatics and Information Science of Wuhan University, 2008, 33(4):331-336 http://ch.whu.edu.cn/CN/abstract/abstract1500.shtml
    [3] Dalal N, Triggs B. Histograms of Oriented Gradients for Human Detection[C]. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, San Diego, CA, USA, 2005 http://cn.bing.com/academic/profile?id=2161969291&encoded=0&v=paper_preview&mkt=zh-cn
    [4] Zhu Qiang, Shai A, Chert Y M. Fast Human Detection Using a Cascade of Histograms of Oriented Gradients[C]. 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, New York, USA, 2006
    [5] Viola P, Jones M J. Robust Real-time Face Detection[J]. International Journal of Computer Vision, 2004, 57(2):137-154 doi:  10.1023/B:VISI.0000013087.49260.fb
    [6] 黄茜, 顾杰峰, 杨文亮.基于梯度向量直方图的行人检测[J].科学技术与工程, 2009, 9(13):3646-3651 http://www.cnki.com.cn/Article/CJFDTOTAL-KXJS200913015.htm

    Huang Qian, Gu Jiefeng, Yang Wenliang. Pedestrian Detection Based on Histograms of Oriented Gradients[J]. Science Technology and Engineering, 2009, 9(13):3646-3651 http://www.cnki.com.cn/Article/CJFDTOTAL-KXJS200913015.htm
    [7] Wojek C, Schiele B. A Performance Evaluation of Single and Multi-feature People Detection[J]. Pattern Recognition, 2008(7):82-91 doi:  10.1007/978-3-540-69321-5_9
    [8] Wang Xiaoyu, Han T X, Yan Shuicheng. An HOG-LBP Human Detector with Partial Occlusion Handling[C]. 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Miami, Florida, USA, 2009
    [9] Dollár P, Belongie S, Perona P. The Fastest Pedestrian Detector in the West[C]. BMVC 2010, Aberystwyth, UK, 2010
    [10] Felzenszwalb P, McAllester D, Ramanan D. A Discriminatively Trained, Multiscale, Deformable Part model[C]. 2008 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Anchorage, Alaska, USA, 2008
    [11] Felzenszwalb P F, Girshick R B, McAllester D. Cascade Object Detection with Deformable Part Models[C]. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, San Francisco, CA, USA, 2010
    [12] Felzenszwalb P F, Girshick R B, McAllester D, et al. Object Detection with Discriminatively Trained Part-based Models[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2010, 32(9):1627-1645 doi:  10.1109/TPAMI.2009.167
    [13] Ouyang Wanli, Wang Xiaogang. Single-pedestrian Detection Aided by Multi-pedestrian Detection[C]. 2013 IEEE Conference on Computer Vision and Pattern Recognition, Portland, OR, USA, 2013
    [14] Dollar P, Wojek C, Schiele B, et al. Pedestrian Detection:An Evaluation of the State of the Art[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2012, 34(4):743-761 doi:  10.1109/TPAMI.2011.155
    [15] Shannon C E. A Mathematical Theory of Communication[J]. ACM SIGMOBILE Mobile Computing and Communications Review, 2001, 5(1):3-55 doi:  10.1145/584091
    [16] Kearns M J, Vazirani U V. An Introduction to Computational Learning Theory[M]. Massachusetts:MIT Press, 1994:1-7
    [17] Andriluka M, Roth S, Schiele B. People-tracking-by-detection and People-detection-by-tracking[C]. 2008 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Anchorage, Alaska, USA, 2008
  • [1] 张慧芳, 张鹏林, 晁剑.  使用多尺度模糊融合的高分影像变化检测 . 武汉大学学报 ( 信息科学版), 2022, 47(2): 296-303. doi: 10.13203/j.whugis20190425
    [2] 张双喜, 刘金钊, 张品, 陈兆辉.  联合BEMD和WMM方法实现位场多尺度边界检测 . 武汉大学学报 ( 信息科学版), 2022, 47(4): 533-542. doi: 10.13203/j.whugis20200286
    [3] 张祥, 杨剑, 吴浩, 王昱人, 郭世泰, 瞿美仙.  利用多尺度张量投票的建筑立面分割方法 . 武汉大学学报 ( 信息科学版), 2021, 46(3): 348-352. doi: 10.13203/j.whugis20180487
    [4] 邹北骥, 李伯洲, 刘姝.  基于中心点检测和重识别的多行人跟踪算法 . 武汉大学学报 ( 信息科学版), 2021, 46(9): 1345-1353. doi: 10.13203/j.whugis20210328
    [5] 周沙, 牛继强, 徐丰, 潘晓芳, 甄文杰, 钱颢月.  面向行人导航的注视方向估计模型 . 武汉大学学报 ( 信息科学版), 2021, 46(5): 700-705,735. doi: 10.13203/j.whugis20200465
    [6] 周于涛, 吴华意, 成洪权, 郑杰, 李学锡.  结合自注意力机制和结伴行为特征的行人轨迹预测模型 . 武汉大学学报 ( 信息科学版), 2020, 45(12): 1989-1996. doi: 10.13203/j.whugis20200159
    [7] 张瑞倩, 邵振峰, Aleksei Portnov, 汪家明.  多尺度空洞卷积的无人机影像目标检测方法 . 武汉大学学报 ( 信息科学版), 2020, 45(6): 895-903. doi: 10.13203/j.whugis20200253
    [8] 胡涛, 朱欣焰, 呙维, 张发明.  融合颜色和深度信息的运动目标提取方法 . 武汉大学学报 ( 信息科学版), 2019, 44(2): 276-282. doi: 10.13203/j.whugis20160535
    [9] 邢远秀, 章登义, 赵俭辉.  利用多尺度弦角尖锐度累积的自适应角点检测算子 . 武汉大学学报 ( 信息科学版), 2015, 40(5): 617-622,627. doi: 10.13203/j.whugis20140583
    [10] 陆苗, 梅洋, 赵勇, 冷亮.  利用多尺度几何特征向量的变化检测方法 . 武汉大学学报 ( 信息科学版), 2015, 40(5): 623-627. doi: 10.13203/j.whugis20130382
    [11] 徐川, 华凤, 眭海刚, 陈光.  多尺度水平集SAR影像水体自动分割方法 . 武汉大学学报 ( 信息科学版), 2014, 39(1): 27-31.
    [12] 周亚男, 骆剑承, 程熙, 沈占锋.  多特征融入的自适应遥感影像多尺度分割 . 武汉大学学报 ( 信息科学版), 2013, 38(1): 19-22.
    [13] 尤红建.  多尺度分割优化的SAR变化检测 . 武汉大学学报 ( 信息科学版), 2011, 36(5): 531-534.
    [14] 郑晨, 王雷光, 胡亦钧, 秦前清.  利用小波域多尺度模糊MRF模型进行纹理分割 . 武汉大学学报 ( 信息科学版), 2010, 35(9): 1074-1078.
    [15] 孙小丹, 徐涵秋.  一种利用多光谱双向检测和多尺度角特征验证的角提取方法 . 武汉大学学报 ( 信息科学版), 2009, 34(10): 1231-1235.
    [16] 孙开敏, 李德仁, 眭海刚.  基于多尺度分割的对象级影像平滑算法 . 武汉大学学报 ( 信息科学版), 2009, 34(4): 423-426.
    [17] 蒋志勇, 陈晓玲, 秦前清, 陈楚群.  基于重构的多尺度目标提取与分割 . 武汉大学学报 ( 信息科学版), 2008, 33(11): 1158-1161.
    [18] 龚龑, 舒宁.  二值马尔科夫模型和多波段遥感影像的多尺度纹理分割 . 武汉大学学报 ( 信息科学版), 2008, 33(1): 21-24.
    [19] 费浦生, 王文波.  基于小波增强的改进多尺度形态梯度边缘检测算法 . 武汉大学学报 ( 信息科学版), 2007, 32(2): 120-123.
    [20] 柴艳菊, 欧吉坤, 韩保民.  异常形变检测方法探讨 . 武汉大学学报 ( 信息科学版), 2002, 27(4): 372-376.
  • 加载中
图(7) / 表(2)
计量
  • 文章访问数:  1029
  • HTML全文浏览量:  61
  • PDF下载量:  315
  • 被引次数: 0
出版历程
  • 收稿日期:  2015-05-27
  • 刊出日期:  2016-11-05

基于稀疏多尺度分割和级联形变模型的行人检测算法

doi: 10.13203/j.whugis20140212
    基金项目:

    国家自然科学基金 61172174

    国家重大设备专项基金 2012YQ16018505

    国家科技支撑计划 2013BAH42F03

    作者简介:

    吕瑞, 硕士, 主要从事计算机视觉、机器学习相关研究。vrui@whu.edu.cn

    通讯作者: 邵振峰, 博士, 教授。shaozhenfeng@whu.edu.cn
  • 中图分类号: P237;TP751;TP391

摘要: 行人检测是视频大数据中提取信息的关键技术之一,是视频大数据挖掘的关键环节。提出了一种基于稀疏多尺度分割和级联形变模型的行人检测算法。首先设计基于图像纹理的稀疏多尺度分割算法提取潜在行人区域,完成初级多尺度检测;同时缩小检测范围,剔除大量背景区域;再基于级联形变模型在候选特征区域进行精细检测,最终实现由粗到细的快速行人检测。在TUD-Crossing和TUD-Pedestrian等公开数据集上对算法进行了测试。实验结果表明,本文算法降低了虚警率,提升了检测速度。

English Abstract

吕瑞, 邵振峰. 基于稀疏多尺度分割和级联形变模型的行人检测算法[J]. 武汉大学学报 ( 信息科学版), 2016, 41(11): 1544-1549. doi: 10.13203/j.whugis20140212
引用本文: 吕瑞, 邵振峰. 基于稀疏多尺度分割和级联形变模型的行人检测算法[J]. 武汉大学学报 ( 信息科学版), 2016, 41(11): 1544-1549. doi: 10.13203/j.whugis20140212
LV Rui, SHAO Zhenfeng. A Pedestrian Detection Algorithm Based on Sparse Multi-scale Image Segmentation and Cascade Deformable Part Model[J]. Geomatics and Information Science of Wuhan University, 2016, 41(11): 1544-1549. doi: 10.13203/j.whugis20140212
Citation: LV Rui, SHAO Zhenfeng. A Pedestrian Detection Algorithm Based on Sparse Multi-scale Image Segmentation and Cascade Deformable Part Model[J]. Geomatics and Information Science of Wuhan University, 2016, 41(11): 1544-1549. doi: 10.13203/j.whugis20140212
  • 随着互联网、物联网、云计算等的迅猛发展,信息社会已经步入大数据时代。基于人工智能的数据处理方法在大数据时代具有优越性[1]。行人检测是人工智能方法在视频大数据中的典型应用,其在机器人、智能交通[2]等领域也有着广泛的应用。行人的身材、姿势、衣着和视角变化极大,光照变化、背景场景复杂以及摄像头自身的移动和晃动,都提升了行人检测问题的难度。在拥挤的场景下进行行人检测更是一个难点。

    目前,主流的行人检测算法主要是基于统计分类方法,通过提取人体的各种特征,然后利用模式识别的方法进行分类。最具影响的统计分类方法是Dalal提出的基于梯度方向直方图(histogram of oriented gradient,HOG)特征来描述行人的方法[3],由于该特征细致刻划了图像局部区域的梯度强度以及梯度方向的分布情况,该分布情况对局部对象外观和形状可以进行很好的描述,因而表现出了优良的检测性能。文献[4-5]采用Boosted Cascade算法进行行人检测,增加了HOG特征的个数,明显提升了检测速度,但是该方法延长了训练时间; 黄茜等[6]运用积分向量图来计算HOG特征,使用线性SVM(support vector machine)作为弱分类器进行级联训练,并解决了SVM的二次规划问题,缩短了计算时间。文献[7, 8]算法通过提取多特征的方式,提升了行人检测对环境的鲁棒性。文献[9]在提取多特征的基础上,改进图像金字塔,实现了较为稳健的快速行人检测。然而,这些算法无法克服部分遮挡的影响。Felzenszwalb等[10]提出了形变模型(deformable part model,DPM),采用整体、部位双层模型进行检测,在一定程度上克服了部分遮挡。文献[11]提出了级联形变模型算法(cascade deformable part model,CDPM),在牺牲少量检测精度的条件下,明显缩短了检测时间。文献[12]引入Mixture Model加强了对密集人群的检测效率。文献[13]对多行人进行建模,进一步地提升了检测算法在密集人群中的识别效率。此外,文献[14]对当前流行的算法进行了对比分析。

    DPM模型具有很强的鲁棒性,然而,该模型算法复杂度较高,且需要通过图像金字塔来保证尺度不变性,进一步约束了算法的效率。针对上述问题,本文提出了一种基于稀疏多尺度分割和级联形变模型的行人检测算法,首先设计稀疏多尺度图像分割算法来提取可能存在行人的区域,缩小检测范围,剔除大量干扰区域,完成初级检测,然后再集成级联DPM模型在分割区域进行精细行人检测,实现由粗到细的快速行人检测。

    本文提出的快速行人检测算法集成了训练模型、稀疏多尺度分割和精细检测3个阶段,系统框架如图 1所示。本文首先运用LSVM(latent support vector machine)方法[10]离线训练行人模型,然后通过稀疏多尺度图像分割,快速提取感兴趣区域,缩小检测范围,剔除大量背景区域,实现初级检测;再集成级联形变模型在感兴趣区域进行多尺度精细检测,最终完成稳健且高效的行人检测。

    图  1  快速行人检测算法框架

    Figure 1.  Framework of Pedestrian Detection Algorithm

    • DPM算法是通过构建图像金子塔,并计算对应HOG特征形成HOG金子塔,实现对不同尺度的行人进行检测,保证其尺度不变性。但HOG金字塔的构建也大幅增加了算法的检测时间。行人具有较为明显的纹理特征,而背景中存在着大量诸如地面、天空、玻璃等纹理较少的事物,因此,本文设计基于图像局部熵的稀疏多尺度分割,在完成快速初级检测的同时,减少了HOG特征的计算范围。

    • ΩRN的一个有界子集,I:Ω→[0, L]表示灰度图像。假定图像只有两个感兴趣的区域,且每个区域自身都有相似的特征,即目标区域A和背景区域B。为了对单个区域的相应特征进行局部比较,本文采用局部熵进行描述。

      任意一个点xΩ,设Wx, r是以x为中心、r为半径的圆形检测窗口函数,则图像灰度级局部概率密度估计定义为:

      (1)

      式中,y∈[0, L]是灰度值;|•|表示点集的个数。

      由香农第二定理[15]可知,图像局部熵为:

      (2)

      式中, 灰度y满足0≤yL

      图像局部熵具有亮度不变性,且能较好地表述纹理特征,十分适合行人的粗分割。

    • 本文提出的稀疏多尺度分割算法的具体流程如图 2所示。定义Cs=Ω(Is)为图像Is尺度上的HOG特征,采样尺度从s=1开始,逐级下降。对所有尺度进行熵空间的映射同样会耗费大量时间,为此,本文只在尺度s∈{1/2, 1/4, …}处进行熵空间映射、形态学滤波,其他尺寸依据最近尺寸的分割区域进行等比映射,从而快速而准确地建立精简图像金字塔。最后,计算金字塔的HOG特征,完成精简HOG金字塔的构建,实现基于图像多尺度分割的初级检测。

      图  2  图像多尺度分割

      Figure 2.  Multi-scale Image Segmentation

      本文基于图像多尺度分割的结果如图 3所示。由图 3可知,本文的初级检测能有效地提取行人的所在区域。

      图  3  初级检测结果

      Figure 3.  Results of Coarse Detection

    • 经典的HOG[3]算法具有很好的光照不变性和几何不变性,表现了较好的鲁棒性。然而,由于行人是非刚体目标,当行人行走或者相机拍摄角度发生变化时,其部分几何特征也在改变,因此,单纯的HOG算法具有局限性。针对这个问题,DPM模型作了以下改进:①增加部位滤波器,通过计算各个部位的匹配情况,提升对目标形变的适应性;②考虑目标部位和整体之间的位置关系,模拟行人身体的形变规律,进一步提升对行人形变的适应性;③依据行人横纵比分类,训练多模型(正面、侧面)[11],提升对多角度问题的鲁棒性。

    • 本文算法在精细检测阶段集成的DPM模型由全局滤波器F和部位模型(P1P2,…,Pn)组成,其中Pi=(Fivisiaibi)。这里的Fi是第i部位的滤波器;vi是二维向量,用于描述第i部位窗口中心相对于全局窗口的布局情况;si表示窗口的尺寸;aibi是第i部位分数测量函数的两个系数。每个部位模型指定一个空间模型和一个部位滤波器,空间模型为每个局部定义了几个其相对检测窗口的布局和每个布局对应的形变成本。一、二级部位模型是根据行人特征构造,行人模型采用扫描窗口的方式进行检测。检测窗口的分数是所有滤波器的分数减去形变花费。全局滤波器和部位滤波器的分数都是通过计算点集在窗口中的HOG特征得出。其中,全局滤波器是基于Dalal-Triggs模型[1],部位滤波器所用特征的空间分辨率是全局滤波器的两倍。

      模型在HOG金字塔中的布局用z=(p0,…, pn)表示,其中当i=0时,pi=(xiyili)表示全局滤波器的位置;当i>0时,它表示第i部位的布局。本文假设部位滤波器的HOG单元尺寸是全局滤波器的一半。每个布局可能的分数是由每个滤波器的分数(数据条款)加上每个部位相对于全局滤波器的布局分数(空间条款)。具体计算公式如下:

      (3)

      式中,(, )=((xi, yi)-2(x, y)+vi)/si为第i部位相对于根滤波器的布局。的取值范围为[-1, 1]。

    • 由于DPM模型在计算n个根滤波器匹配得分的同时,还需计算8n个部位滤波器的匹配得分和空间变换花费,导致算法复杂度远高于其他算法[3]。为了进一步提升行人检测的速度,本文算法通过集成级联算法[11]来计算每个部位相对根滤波器最优的布局以及得分,然后运用一系列阈值来减少贡献很小的部位滤波器,缩小计算区域,最终进一步提升检测速度。DPM模型中根滤波器和部位滤波器是采用星型模型链接的,如图 4所示。图 4分别为行人模型的根滤波器、8个部位滤波器和星形模型。滤波器用于提取图像金字塔中所有图像的HOG特征,星形模型用于描述所有滤波器之间的空间关系。在星形模型中,每个部位滤波器的中心(蓝色圆圈)只和根滤波器的中心(红色圆圈)相连。依据DPM模型的定义,检测窗口的得分可以表示为:

      (4)

      (5)

      图  4  级联星形模型

      Figure 4.  The Cascade Star Model

      式中,v0为根部位; vi, …, vn为额外的n个部位; Ω为图像中所有部位的位置信息空间; ωΩ表示一个部位所在的位置和尺度; mi(ω)代表滤波器在密集特征金字塔中的回馈值,ai(ω)表示每个部位的理想位置;di(δ)描述每个部位的在空间上的形变花费;scorei(η)是指一个部位的最大分数。式(5)通过计算星形模型中部位滤波器与根滤波器之间的位置变化关系得到形变花费,式(4)则综合统计各滤波器的匹配分数和形变花费得到最终得分score(ω)。如果score(ω)≥T,则为目标区域,反之,为背景区域。级联算法如图 5所示。

      图  5  级联算法流程图

      Figure 5.  The Flowchart of Cascade Algorithm

      假设星形结构模型有n+1个模块,则级联算法需要一个全局阈值T和2n个中间阈值。其中,是用来存储mi(ω)的中间计算值,来避免重复计算。对于每个部位ωΩ,本文在n个层次上计算其得分scorei(ω)。变量s用来累计在所有层次上的总分。在第i层,本文用变量p来计算部位vi的得分scorei(η)。数据的阈值用((t1, t′1), …, (tn, t′n)和T储存,检测窗口为D

      在整个计算过程中,有两次机会减少计算量:

      1) 估计缩减,如果最初第i个部位在ω处的得分低于ti,则在ω处就不会估计部位vi到部位vn的得分。

      2) 形变缩减,如果最初第i个部位的得分减去di(δ)的分数低于t′i,则算法1会跳过部分δ

      当以上两个步骤的分数小于临界阈值,其对score(ω)超过最终阈值T的贡献可以忽略不计,因此,可以在不影响精度的情况下缩减计算量,减少检测时间。其中,阈值的初值采用PAC学习[16]的方式获得。

    • 为了证明提出算法的鲁棒性,本文利用3.07 GHZ主频CPU、3 GB内存的计算机在Matlab 2009b仿真平台上,对公开数据集TUD-Crossing[17]和TUD-Pedestrian[17]进行了测试。

      本文的训练数据集是INRIA[1]的子集,训练方法采用LSVM[8]。所有实验数据的基本信息如表 1所示。

      表 1  实验数据

      Table 1.  Experiment Data

      数据集 图片尺寸/(像素×像素) 数量 行人数
      INIRA的子集 不定 2 000 4 560
      TUD-Crossing 640×480 201 1 008
      TUD-Pedestrian 720×576 250 311

      为了评估算法的高效性,本文采用PR(precision-recall)曲线和平均精度(average precision, AP)来衡量DPM、CDPM(级联算法)和SDPM(本文算法)的检测精度,并通过统计3种算法的平均检测时间来对比检测速度。

    • 图 6显示了本文算法在两个公开数据集上的检测效果。图中黑色区域为稀疏多尺度分割剔除的背景区域,红色矩形为检测到的具体行人区域。从图中可以看出,在测试数据集上,本文算法能检测到除了少量遮挡行人的所有行人。

      图  6  检测效果

      Figure 6.  Resuts of Detection

      表 2统计了3种算法在公开数据集TUD-Crossing和TUD-Pedestrian上的平均检测时间。由表 2可知,在尺寸为640像素×480像素的图片上进行行人检测时,在级联检测算法的基础上,本文算法将检测时间提升了37%;在尺寸为720像素×576像素的图片上进行检测时,本文算法将检测时间提升了27%。

      表 2  平均检测时间对比/s

      Table 2.  Comparison of Mean Detection Time/s

      数据集 DPM CDPM SDPM
      TUD-Crossing 6.836 1.402 0.885
      TUD-Pedestrian 8.873 1.698 1.241

      图 7(a)图 7(b)分别统计了DPM、CDPM和SDPM在公开数据集TUD-Crossing和TUD-Pedestrian上的PR曲线和平均检测精度。其中,P代表查准率,R为查全率[10],查准率和虚警率的概率和为1,分别指被判定为正样本中的正样本和负样本的比例;查全率和漏检率的概率和也为1,分别指被正确判定的正样本和被判定遗漏的正样本占总正样本的比例。平均检测精度表示不同查全率的点上的正确率的平均。此外,PR曲线越靠近统计图的上方,精度越高。由图 7可知,3种算法的precision-recall曲线重叠率极高,检测精度基本没有差异。此外,本文算法相比CDPM算法,在检测精度上还有微小提升(即减少了虚警率)。

      图  7  检测精度结果

      Figure 7.  Results of Detection Accuracy

      通过图 7表 2可以得出对比分析结果。

      1) 精度分析。本文在初级检测阶段,剔除了大量背景,减少了部分环境干扰,且为精细检测阶段保留了有效区域,因而降低了虚警率;

      2) 效率分析。本文在初级检测阶段,平均花费0.15 s完成了图中50%左右背景的剔除,避免了精细检测阶段大量不必要的复杂计算,因而明显提升了检测速度。

    • 本文提出了一种基于图像多尺度分割和级联形变模型的行人检测算法。该算法运用图像多尺度分割算法提取可能存在行人的区域,缩小检测范围,剔除大量干扰区域,完成初级检测,再集成级联形变模型在分割区域进行精细行人检测,实现由粗到细的快速行人检测。实验结果表明,本文提出的算法实现了快速的粗分割,降低了虚警率,同时将平均检测时间提升了32%。未来的工作将进一步分析行人运动特征,结合跟踪算法实现实时且稳健的行人检测。

参考文献 (17)

目录

    /

    返回文章
    返回