留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

一种视觉与惯性协同的室内多行人目标定位方法

张星 刘涛 孙龙培 李清泉 方志祥

张星, 刘涛, 孙龙培, 李清泉, 方志祥. 一种视觉与惯性协同的室内多行人目标定位方法[J]. 武汉大学学报 ● 信息科学版, 2021, 46(5): 672-680. doi: 10.13203/j.whugis20200454
引用本文: 张星, 刘涛, 孙龙培, 李清泉, 方志祥. 一种视觉与惯性协同的室内多行人目标定位方法[J]. 武汉大学学报 ● 信息科学版, 2021, 46(5): 672-680. doi: 10.13203/j.whugis20200454
ZHANG Xing, LIU Tao, SUN Longpei, LI Qingquan, FANG Zhixiang. A Visual-Inertial Collaborative Indoor Localization Method for Multiple Moving Pedestrian Targets[J]. Geomatics and Information Science of Wuhan University, 2021, 46(5): 672-680. doi: 10.13203/j.whugis20200454
Citation: ZHANG Xing, LIU Tao, SUN Longpei, LI Qingquan, FANG Zhixiang. A Visual-Inertial Collaborative Indoor Localization Method for Multiple Moving Pedestrian Targets[J]. Geomatics and Information Science of Wuhan University, 2021, 46(5): 672-680. doi: 10.13203/j.whugis20200454

一种视觉与惯性协同的室内多行人目标定位方法

doi: 10.13203/j.whugis20200454
基金项目: 

国家自然科学基金 42071434

国家自然科学基金 41801376

国家自然科学基金 41771473

广东省自然科学基金 2018A030313289

深圳市科技创新委员会基础研究项目 JCYJ20180305125033478

深圳市科技创新委员会基础研究项目 JCYJ20170818144544900

深圳大学教学改革研究项目 JG2019027

中国博士后科学基金 2020M682293

武汉大学测绘遥感信息工程国家重点实验室开放基金 18S03

河南省高等学校重点科研项目 19A420004

河南省重点研发与推广专项(科技攻关) 202102310342

详细信息
    作者简介:

    张星,博士,副研究员,主要从事行人导航、室内定位方法研究。xzhang@szu.edu.cn

    通讯作者: 刘涛,博士。liutao@huel.edu.cn
  • 中图分类号: P208

A Visual-Inertial Collaborative Indoor Localization Method for Multiple Moving Pedestrian Targets

Funds: 

The National Natural Science Foundation of China 42071434

The National Natural Science Foundation of China 41801376

The National Natural Science Foundation of China 41771473

the Natural Science Foundation of Guangdong Province 2018A030313289

Shenzhen Scientific Research and Development Funding Program JCYJ20180305125033478

Shenzhen Scientific Research and Development Funding Program JCYJ20170818144544900

Teaching Reform Research Project of Shenzhen University JG2019027

China Postdoctoral Science Founda-tion 2020M682293

the Open Research Fund of State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University 18S03

Key Research Projects of Henan Higher Education Institutions 19A420004

Key Scientific and Tech-nological Project of Henan Province 202102310342

More Information
    Author Bio:

    ZHANG Xing, PhD, associate professor, specializes in pedestrian navigation and indoor localization. E-mail: xzhang@szu.edu.cn

    Corresponding author: LIU Tao, PhD. E-mail: liutao@huel.edu.cn
  • 摘要: 多行人目标连续定位与跟踪是大型室内空间安全防护、应急疏散、位置服务等应用领域共同关注的问题。基于固定相机的视觉监测是室内空间人流探测与行人定位的重要方式。然而现有单目视觉行人探测存在行人漏检、易受视觉盲区影响、行人身份难以确定等问题。针对这些问题,提出了一种结合视觉信息与惯性信息的主被动协同定位方法。该方法首先利用视觉行人检测算法探测视频图像中的多行人目标位置,构建像素-世界坐标转换模型,实现行人的被动视觉探测与空间定位。同时,利用智能手机惯性传感器感知行人的运动行为。在此基础上,分别利用视觉和惯性特征构建行人运动行为特征序列,通过特征序列匹配实现多目标行人的身份匹配,以及视觉和惯性信息的协同定位。实验结果表明,所提出的视觉与惯性协同定位方法能够实现多行人目标的身份匹配,协同定位平均精度约为25 cm,能够显著提升单纯视觉被动定位的连续性,减少行人漏检和视觉盲区的影响。
  • 图  1  基于YOLO算法的行人目标检测结果

    Figure  1.  Result of Pedestrian Detection Based on YOLO

    图  2  转弯探测示例

    Figure  2.  An Example for Turning Detection

    图  3  视觉定位盲区

    Figure  3.  Blind Area of Visual Localization

    图  4  实验区域

    Figure  4.  Experimental Area

    图  5  行人检测与跟踪

    Figure  5.  Detecting and Tracking of Pedestrian Using Two Different Cameras

    图  6  视觉被动定位结果

    Figure  6.  Results of Visual Passive Localization

    图  7  协同定位实验结果

    Figure  7.  Experimental Results of Collaborative Localization

    表  1  步数检测结果

    Table  1.   Results of Step Number Estimation

    距离/m 实际步数 检测步数 误差/%
    50 72 74 2.8
    70 98 100 2.0
    100 140 144 2.9
    下载: 导出CSV

    表  2  相机标定参数

    Table  2.   Parameters of Camera Calibration

    参数 数值/像素
    $ \mathrm{d}x $ 1/1 324.3
    $ \mathrm{d}y $ 1/1 318.2
    $ {u}_{0} $ 957.8
    $ {v}_{0} $ 561.5
    下载: 导出CSV

    表  3  视觉定位误差统计结果

    Table  3.   Statistic Results of Visual Localization

    实验人员 最大误差/cm 平均误差/cm 误差均方差/cm
    a 36.8 24.8 8.9
    b 26.0 16.2 7.1
    c 50.8 37.4 10.5
    d 31.5 22.8 6.5
    下载: 导出CSV

    表  4  视觉惯性协同定位误差统计结果/cm

    Table  4.   Statistic Results of Visual and Inertial Cooperative Localization/cm

    定位方法 平均误差 平均距离 距离标准差
    视觉定位 26.3 23.5 18.9
    协同定位 24.5 19.1 7.5
    下载: 导出CSV
  • [1] 陈锐志, 叶锋. 基于WiFi信道状态信息的室内定位技术现状综述[J]. 武汉大学学报·信息科学版, 2018, 43(12): 2 064-2 070 doi:  10.13203/j.whugis20180176

    Chen Ruizhi, Ye Feng. An Overview of Indoor Positioning Technology Based on WiFi Channel State Information[J]. Geomatics and Information Science of Wuhan University, 2018, 43(12): 2 064-2 070 doi:  10.13203/j.whugis20180176
    [2] 李清泉, 周宝定, 马威, 等. GIS辅助的室内定位技术研究进展[J]. 测绘学报, 2019, 48(12): 1 498-1 506 https://www.cnki.com.cn/Article/CJFDTOTAL-CHXB201912004.htm

    Li Qingquan, Zhou Baoding, Ma Wei, et al. Research Process of Gis-Aided Indoor Localization[J]. Acta Geodaetica et Cartographica Sinica, 2019, 48(12): 1 498-1 506 https://www.cnki.com.cn/Article/CJFDTOTAL-CHXB201912004.htm
    [3] Liu T, Zhang X, Li Q, et al. An Accurate Visual-Inertial Integrated Geo-Tagging Method for Crowdsourcing-Based Indoor Localization[J]. Remote Sensing, 2019, 11: 1 912-1 935 doi:  10.3390/rs11161912
    [4] Zheng Y, Chen S.Mobility Increases Localizability: A Survey on Wireless Indoor Localization Using Inertial Sensors[J]. ACM Computing Surveys, 2015, 47(3): 1-34 http://dl.acm.org/citation.cfm?id=2676430
    [5] Zhang X, Lin J, Li Q, et al. Continuous Indoor Visual Localization Using a Spatial Model and Constraint[J]. IEEE Access, 2020(8): 69 800-69 815 http://ieeexplore.ieee.org/document/9057624
    [6] 陈国良, 张言哲, 汪云甲, 等. WiFi-PDR室内组合定位的无迹卡尔曼滤波算法[J]. 测绘学报, 2015, 44(12): 1 314-1 321 doi:  10.11947/j.AGCS.2015.20140691

    Chen Guoliang, Zhang Yanzhe, Wang Yunjia, et al. Unscented Kalman Filter Algorithm for WiFi-PDR Integrated Indoor Positioning[J]. Acta Geodaetica et Cartographica Sinica, 2015, 44(12): 1 314-1 321 doi:  10.11947/j.AGCS.2015.20140691
    [7] 周宝定, 李清泉, 毛庆洲, 等. 用户行为感知辅助的室内行人定位[J]. 武汉大学学报∙信息科学版, 2014, 39(6): 719-723 https://www.cnki.com.cn/Article/CJFDTOTAL-WHCH201406017.htm

    Zhou Baoding, Li Qingquan, Mao Qingzhou, et al. User Activity Awareness Assisted Indoor Pedestrian Localization[J]. Geomatics and Information Science of Wuhan University, 2014, 39(6): 719-723 https://www.cnki.com.cn/Article/CJFDTOTAL-WHCH201406017.htm
    [8] 熊汉江, 郭胜, 郑先伟, 等. 室内行人移动行为识别及轨迹追踪[J]. 武汉大学学报·信息科学版, 2018, 43(11): 1 696-1 703 doi:  10.13203/j.whugis20170066

    Xiong Hanjiang, Guo Sheng, Zheng Xianwei, et al. Indoor Pedestrian Mobile Activity Recognition and Trajectory Tracking[J]. Geomatics and Information Science of Wuhan University, 2018, 43(11): 1 696-1 703 doi:  10.13203/j.whugis20170066
    [9] Liu T, Zhang X, Li Q, et al. Modeling of Structure Landmark for Indoor Pedestrian Localization[J]. IEEE Access, 2019(1): 15 654-15 668 http://ieeexplore.ieee.org/document/8631021/references
    [10] Zhang S, Benenson R, Omran M, et al. Towards Reaching Human Performance in Pedestrian Detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(99): 973-986 http://www.ncbi.nlm.nih.gov/pubmed/28475049
    [11] Li W, Mahadevan V, Vasconcelos N. Anomaly Detection and Localization in Crowded Scenes[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 36(1): 18-32 http://ieeexplore.ieee.org/document/6531615/
    [12] Zhang L, Li S Z, Yuan X, et al. Real-time Object Classification in Video Surveillance Based on Appearance Learning[C]// IEEE Conference on Computer Vision and Pattern Recognition, Minneapolis, MN, USA, 2007
    [13] Wei H, Laszewski M, Kehtarnavaz N.Deep Learning‐Based Person Detection and Classification for Far Field Video Surveillance[C]// The 13th Dallas Circuits and Systems Conference, Dallas, TX, USA, 2018
    [14] Li Q, Liang A, Liu H. Hierarchical Semantic Segmentation of Image Scene with Object Labeling[J]. EURASIP Journal on Image and Video Processing, 2018, 2 018(1): 15-24 doi:  10.1186/s13640-018-0254-1
    [15] Dalal N, Triggs B.Histograms of Oriented Gradients for Human Detection[C]//International Conference on Computer Vision and Pattern Recognition, San Diego, CA, USA, 2005
    [16] Girshick R, Donahue J, Darrell T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition, Columbus, USA, 2014
    [17] He K, Zhang X, Ren S, et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1 904-1 916 doi:  10.1109/TPAMI.2015.2389824
    [18] Girshick R.Fast R-CNN[C]//International Conferen- ce on Computer Vision, Santiago, Chile, 2015
    [19] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(6): 1 137-1 149 http://ieeexplore.ieee.org/document/7485869/
    [20] Redmon J, Divvala S, Girshick R, et al. You Only Look Once: Unified, Real-Time Object Detection[C]// IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016
    [21] Redmon J, Farhadi A. YOLO9000: Better, Faster, Stronger[C]// IEEE Conference on Computer Vision and Pattern Recognition, Hawaii, USA, 2017
    [22] Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot Multibox Detector[C]//European Conference on Computer Vision, Amsterdam, the Netherlands, 2016
    [23] Zhang Z. A Flexible New Technique for Camera Calibration[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(11): 1 330-1 334 doi:  10.1109/34.888718
    [24] Kappi J, Syrjarinne J, Saarinen J. MEMS-IMU Based Pedestrian Navigator for Handheld Devices[C]// The 14th International Technical Meeting of the Satellite Division of the Institute of Navigation, Salt Lake City, USA, 2001
    [25] 毛钰超. 基于多源数据融合的室内无线定位与跟踪方案[D]. 西安: 西安电子科技大学, 2018

    Mao Yuchao.Indoor Wireless Location and Tracking Scheme Based on Multi-source Data Fusion[D]. Xi'an: Xidian University, 2018
    [26] Li F, Zhao C, Ding G, et al. A Reliable and Accurate Indoor Localization Method Using Phone Inertial Sensors[C]// ACM Conference on Ubiquitous Computing, Pittsburgh Pennsylvania, USA, 2012
  • [1] 刘万科, 陶贤露, 张传明, 姚宜斌, 王甫红, 贾海禄, 楼益栋.  云-端协同的智能手机行人室内外无缝定位技术及其原型系统验证 . 武汉大学学报 ● 信息科学版, 2021, 46(12): 1808-1818. doi: 10.13203/j.whugis20210310
    [2] 邹北骥, 李伯洲, 刘姝.  基于中心点检测和重识别的多行人跟踪算法 . 武汉大学学报 ● 信息科学版, 2021, 46(9): 1345-1353. doi: 10.13203/j.whugis20210328
    [3] 甄杰, 吴建新, 刘纪平, 徐胜华, 周振发, 辛海强.  一种单基站高精度室内应急定位方法 . 武汉大学学报 ● 信息科学版, 2020, 45(8): 1146-1154. doi: 10.13203/j.whugis20200128
    [4] 岳春宇, 孙世君, 何红艳.  一种星载激光测高仪光斑内定位方法 . 武汉大学学报 ● 信息科学版, 2019, 44(4): 586-592. doi: 10.13203/j.whugis20170125
    [5] 程鹏飞, 文汉江, 刘焕玲, 董杰.  卫星大地测量学的研究现状及发展趋势 . 武汉大学学报 ● 信息科学版, 2019, 44(1): 48-54. doi: 10.13203/j.whugis20180356
    [6] 赵文晔, 高井祥, 李增科, 姚一飞.  地图匹配辅助的KF-PF室内定位算法模型 . 武汉大学学报 ● 信息科学版, 2018, 43(5): 806-812. doi: 10.13203/j.whugis20150707
    [7] 熊汉江, 郭胜, 郑先伟, 周妍.  室内行人移动行为识别及轨迹追踪 . 武汉大学学报 ● 信息科学版, 2018, 43(11): 1696-1703. doi: 10.13203/j.whugis20170066
    [8] 徐亚明, 孙福余, 张鹏, 王金岭.  一种利用载波相位差值的伪卫星定位方法 . 武汉大学学报 ● 信息科学版, 2018, 43(10): 1445-1450. doi: 10.13203/j.whugis20170033
    [9] 陈锐志, 叶锋.  基于Wi-Fi信道状态信息的室内定位技术现状综述 . 武汉大学学报 ● 信息科学版, 2018, 43(12): 2064-2070. doi: 10.13203/j.whugis20180176
    [10] 黄志勇, 赵冬青, 张爽娜, 吴昊, 田翌君.  基于粗时段导航与RAIM算法的A-GNSS室内定位 . 武汉大学学报 ● 信息科学版, 2017, 42(3): 321-327. doi: 10.13203/j.whugis20140941
    [11] 闫金金, 尚建嘎, 余芳文, 汤欣怡, 周智勇.  面向实时定位的室内空间结构分析及制图方法 . 武汉大学学报 ● 信息科学版, 2016, 41(8): 1079-1086. doi: 10.13203/j.whugis20140836
    [12] 胡安冬, 王坚, 汪云甲, 刘春燕, 谭兴龙, 李增科.  利用渐消自适应EKF算法进行PDR-WiFi融合定位 . 武汉大学学报 ● 信息科学版, 2016, 41(11): 1556-1562. doi: 10.13203/j.whugis20140432
    [13] 施闯, 章红平, 辜声峰, 楼益栋, 唐卫明.  云定位技术及云定位服务平台 . 武汉大学学报 ● 信息科学版, 2015, 40(8): 995-999. doi: 10.13203/j.whugis20150118
    [14] 周宝定, 李清泉, 毛庆洲, 张星.  用户行为感知辅助的室内行人定位 . 武汉大学学报 ● 信息科学版, 2014, 39(6): 719-723. doi: 10.13203/j.whugis20140100
    [15] 刘春燕, 王坚.  基于几何聚类指纹库的约束KNN室内定位模型 . 武汉大学学报 ● 信息科学版, 2014, 39(11): 1287-1292.
    [16] 刘峻宁, 翟传润, 宋嫡儿, 胡华.  基于改进时星差分的室内伪卫星精密单点定位研究 . 武汉大学学报 ● 信息科学版, 2009, 34(1): 105-108.
    [17] 田辉, 夏林元, 莫志明, 吴东金.  泛在无线信号辅助的室内外无缝定位方法与关键技术 . 武汉大学学报 ● 信息科学版, 2009, 34(11): 1372-1376.
    [18] 徐卫明, 殷晓冬, 王春瑞.  利用海面传感器网络的协同定位技术 . 武汉大学学报 ● 信息科学版, 2009, 34(12): 1415-1418.
    [19] 衣晓, 何友, 关欣.  多模型算法在协同定位中的应用 . 武汉大学学报 ● 信息科学版, 2004, 29(8): 732-735.
    [20] 毕京学, 甄杰, 姚国标, 桑文刚, 宁一鹏, 郭秋英.  面向智能手机的改进有限状态机步态探测算法 . 武汉大学学报 ● 信息科学版, 0, 0(0): 0-0. doi: 10.13203/j.whugis20200186
  • 加载中
图(7) / 表(4)
计量
  • 文章访问数:  527
  • HTML全文浏览量:  135
  • PDF下载量:  80
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-08-28
  • 刊出日期:  2021-05-05

一种视觉与惯性协同的室内多行人目标定位方法

doi: 10.13203/j.whugis20200454
    基金项目:

    国家自然科学基金 42071434

    国家自然科学基金 41801376

    国家自然科学基金 41771473

    广东省自然科学基金 2018A030313289

    深圳市科技创新委员会基础研究项目 JCYJ20180305125033478

    深圳市科技创新委员会基础研究项目 JCYJ20170818144544900

    深圳大学教学改革研究项目 JG2019027

    中国博士后科学基金 2020M682293

    武汉大学测绘遥感信息工程国家重点实验室开放基金 18S03

    河南省高等学校重点科研项目 19A420004

    河南省重点研发与推广专项(科技攻关) 202102310342

    作者简介:

    张星,博士,副研究员,主要从事行人导航、室内定位方法研究。xzhang@szu.edu.cn

    通讯作者: 刘涛,博士。liutao@huel.edu.cn
  • 中图分类号: P208

摘要: 多行人目标连续定位与跟踪是大型室内空间安全防护、应急疏散、位置服务等应用领域共同关注的问题。基于固定相机的视觉监测是室内空间人流探测与行人定位的重要方式。然而现有单目视觉行人探测存在行人漏检、易受视觉盲区影响、行人身份难以确定等问题。针对这些问题,提出了一种结合视觉信息与惯性信息的主被动协同定位方法。该方法首先利用视觉行人检测算法探测视频图像中的多行人目标位置,构建像素-世界坐标转换模型,实现行人的被动视觉探测与空间定位。同时,利用智能手机惯性传感器感知行人的运动行为。在此基础上,分别利用视觉和惯性特征构建行人运动行为特征序列,通过特征序列匹配实现多目标行人的身份匹配,以及视觉和惯性信息的协同定位。实验结果表明,所提出的视觉与惯性协同定位方法能够实现多行人目标的身份匹配,协同定位平均精度约为25 cm,能够显著提升单纯视觉被动定位的连续性,减少行人漏检和视觉盲区的影响。

English Abstract

张星, 刘涛, 孙龙培, 李清泉, 方志祥. 一种视觉与惯性协同的室内多行人目标定位方法[J]. 武汉大学学报 ● 信息科学版, 2021, 46(5): 672-680. doi: 10.13203/j.whugis20200454
引用本文: 张星, 刘涛, 孙龙培, 李清泉, 方志祥. 一种视觉与惯性协同的室内多行人目标定位方法[J]. 武汉大学学报 ● 信息科学版, 2021, 46(5): 672-680. doi: 10.13203/j.whugis20200454
ZHANG Xing, LIU Tao, SUN Longpei, LI Qingquan, FANG Zhixiang. A Visual-Inertial Collaborative Indoor Localization Method for Multiple Moving Pedestrian Targets[J]. Geomatics and Information Science of Wuhan University, 2021, 46(5): 672-680. doi: 10.13203/j.whugis20200454
Citation: ZHANG Xing, LIU Tao, SUN Longpei, LI Qingquan, FANG Zhixiang. A Visual-Inertial Collaborative Indoor Localization Method for Multiple Moving Pedestrian Targets[J]. Geomatics and Information Science of Wuhan University, 2021, 46(5): 672-680. doi: 10.13203/j.whugis20200454
  • 近年来,随着基于位置服务(location based service,LBS)应用的快速发展,大型室内空间(例如地下停车场、大型商业综合体等)中的室内定位研究受到越来越多学者的关注[1]。高精度的室内定位技术已成为公共安全、智能管理、商业分析、位置服务等领域的共性基础[2]

    从方法原理和实现机制上,室内定位技术可以分为主动定位和被动定位。主动定位是利用搭载在移动设备上的各式传感器主动探测环境和目标运动信息,通过环境信息匹配和航迹推算实现位置计算[3-5],具有自主性强、定位对象身份确定(携带传感器的行人或平台)的优势,同时对基础设施(如超宽带、蓝牙阵列等)或移动平台传感器设备(高精度惯导系统、双目相机、激光点云等)具有较高依赖性。目前,室内行人定位研究主要以智能手机为载体,利用手机搭载的加速度计、陀螺仪、方向传感器等传感器设备实现行人主动定位。例如,文献[6]使用无迹卡尔曼滤波对接收到的WiFi信号定位结果和行人航位推算(pedestrian dead reckoning,PDR)定位结果进行融合,提高了单源室内定位方法的精度;文献[7]使用智能手机传感器信号感知用户行为,将用户行为与室内路网节点进行匹配,实现行人定位;文献[8]利用人类活动识别技术感知用户室内移动行为中的特定地标,引入隐式马尔科夫模型进行位置推断,实现了用户的移动轨迹追踪;文献[9]提出了一种结构地标概念,利用智能手机拍摄视频识别室内空间结构,利用空间结构匹配实现室内行人定位。

    然而,对于大型公共空间的安全防护、应急疏散、智能管理等应用领域,主动定位模式存在着成本较高或数据维护更新工作量大等问题。目前公共空间(如地铁站、商场、停车场等)的安防系统主要以视频监控为主,额外布设高密度的超宽带基站、蓝牙阵列、无线射频等会增加大量运营成本。而WiFi等定位技术对信号数据库的采集和维护要求较高,人力成本和工作强度较高。

    不同于主动定位,被动定位利用环境中固有的信息感知源或发射设备(如监控相机、超声波、红外线等)探测移动对象的位置,可同时对运动目标(如行人)进行检测与定位[10-11],无需目标对象携带额外设备,更加契合公共空间安防和智能管理应用的需求。其中,利用室内固定摄像头的被动视觉定位是一种成本较低、基础设施普及率高、容易拓展的定位方式。目前,计算机视觉领域的大量研究关注摄像视频目标分类识别[12-13]、场景分割[14]等内容,并取得了较高的行人目标识别精度和场景分类结果。例如,文献[15]提出使用方向梯度直方图特征并结合线性支持向量机分类器来完成行人的检测方法,可以有效区分图像中的行人和非行人区域;文献[16]提出区域卷积神经网络算法(region-convolutional neural networks,R-CNN),主要包括两个阶段:利用深度网络自动生成候选框、对候选框位置进行回归和分类,相比传统人工提取的特征具有更好的目标检测效果。类似算法还有空间金字塔池化深度卷积网络[17](spatial pyramid pooling in deep convolutional networks,SPP-Net)、快速的基于区域卷积神经网络[18](fast region-based convolutional network,Fast R-CNN)、更快的基于区域卷积神经网络[19](faster region-based convolutional network,Faster R-CNN)等。除了两阶段的目标检测算法,YOLO[20-21](you only look once)和单发多箱探测器[22](single shot multibox detector,SSD)算法等单阶段目标检测算法将整个网络作为一个整体,通过端到端的网络直接完成目标位置估计和类别回归,具有更高的检测效率。然而,视觉目标检测方法存在检测结果不稳定、错检和漏检等问题,且检测结果为屏幕二维像素坐标而非真实空间三维坐标。同时,由于检测目标的身份未知,对于大型室内空间(多摄像头区域)下的行人身份一致性匹配和定位轨迹融合仍然是一个较难的问题。

    针对上述问题,本文提出了一种视觉与惯性协同的室内定位方法。该方法首先利用单目视觉目标检测方法检测视频中的行人目标,通过构建像素-世界坐标转换模型实现室内行人单相机亚米级精确三维定位;然后在此基础上,利用智能手机的惯性信息对行人进行主动定位,从而感知行人的运动行为;最后利用视觉行为序列与惯性行为序列的匹配实现多相机视野区域的行人身份识别与运动轨迹融合,并利用惯性航位推算方法补充监控相机视觉盲区中的行人运动轨迹,实现被动视觉与主动惯性的协同定位。惯性信息具有采样率高、数据量小等特点,运动行为感知能力强。将视觉信息与惯性信息融合,能显著提高多相机室内监控系统的全局行人感知与空间定位能力,为大型室内场景安防与智能管理提供理论与技术支撑。

    • 视频图像行人检测是视觉被动定位的基础。本文利用YOLO算法框架进行视频图像的行人检测与识别。该算法使用多尺度金字塔结构,将原始影像划分为多个等间隔大小的单元,分别在大小为13×13像素、26×26像素、52×52像素的3个尺度的特征图上进行检测,使用2倍上采样使特征图在相邻两尺度上传递。每个网格单元使用3个锚点框预测3个边界框,每个边界框同时预测目标的坐标(xy)、宽和高等信息。

      YOLO算法框架使用逻辑回归预测每个边界框包含物体的概率,如果锚点框与真实目标边界框的重叠率大于任何其他锚点框,则锚点框的概率为1;如果重叠率大于阈值(通常取0.5),但不是最大重叠率,则忽略。最终算法会选择最佳的锚点框分配给该目标,并使用二元交叉熵和逻辑回归对其进行类别预测。图 1显示了基于该算法框架的视频图像行人检测结果。

      图  1  基于YOLO算法的行人目标检测结果

      Figure 1.  Result of Pedestrian Detection Based on YOLO

    • 视频图像行人检测得到的结果是像素坐标,需要构建像素-世界坐标转换模型实现行人室内位置计算。该模型主要涉及二维像素平面坐标系和像平面坐标系,以及三维相机坐标系和世界坐标系。

      对任意像素平面坐标(uv),将其转换为对应的像平面坐标(xy)的计算公式为:

      $$ \left[\begin{array}{c}u\\ v\\ 1\end{array}\right]=\left[\begin{array}{ccc}\frac{1}{\mathrm{d}x}& 0& {u}_{0}\\ 0& \frac{1}{\mathrm{d}y}& {v}_{0}\\ 0& 0& 1\end{array}\right]\left[\begin{array}{c}x\\ y\\ 1\end{array}\right] $$ (1)

      式中,($ {u}_{0}, {v}_{0} $)表示二维平面坐标系原点的平移量;dx、dy表示每个像素在坐标轴方向上的物理尺寸,单位为mm/像素。

      从像平面坐标转换为相机坐标属于透视投影变换,在假定相机焦距f已知的情况下,可通过矩阵K进行坐标转换:

      $$ {z}_{c}\left[\begin{array}{c}x\\ y\\ 1\end{array}\right]=\mathit{K}\left[\begin{array}{c}{x}_{c}\\ {y}_{c}\\ \begin{array}{l}{z}_{c}\\ 1\end{array}\end{array}\right] $$ (2)

      式中,($ {x}_{c}, {y}_{c}, {z}_{c} $)表示相机坐标系下的三维坐标;$ \mathit{K}=\left[\begin{array}{ccc}f& 0& \begin{array}{cc}0& 0\end{array}\\ 0& f& \begin{array}{cc}0& 0\end{array}\\ 0& 0& \begin{array}{cc}1& 0\end{array}\end{array}\right] $。

      三维坐标由相机坐标系转换到世界坐标系需要乘以刚体变换矩阵P,其一般形式为:

      $$ \mathit{P}=\left[\begin{array}{cc}\mathit{R}& \mathit{T}\\ 0& 1\end{array}\right] $$ (3)

      式中,R表示旋转矩阵;T表示平移向量。因此,根据下式可将图像上的像素平面坐标转换到世界坐标:

      $$ {z}_{c}\left[\begin{array}{c}u\\ v\\ 1\end{array}\right]=\left[\begin{array}{ccc}\frac{1}{\mathrm{d}x}& 0& {u}_{0}\\ 0& \frac{1}{\mathrm{d}y}& {v}_{0}\\ 0& 0& 1\end{array}\right]\bullet \mathit{K}\bullet \mathit{P}\bullet \left[\begin{array}{c}{x}_{w}\\ {y}_{w}\\ \begin{array}{l}{z}_{w}\\ 1\end{array}\end{array}\right] $$ (4)

      式中,($ {x}_{w}, {y}_{w}, {z}_{w} $)表示像素坐标(uv)对应的世界坐标。可以看出,当dx、 dy值越大、与目标的距离越远时,坐标转换后的误差越大。

      本文模型利用相机标定[23]方法得到矩阵K、$ {u}_{0}、{v}_{0} $等相机内参数,通过在室内环境下选取合适的原点位置,令$ {z}_{c}=H $为地面高程值,X轴、Y轴分别朝向东、北方向,构建世界坐标系,进而计算刚体变换矩阵P。对于图像中监测到的行人目标,使用其足底的像素坐标作为定位点,利用式(4)计算视觉被动定位结果。

    • 通过视觉被动定位能够实现多行人目标的准确空间定位。然而,此时行人的身份仍然未知,无法将定位信息提供给安防系统及行人本人。因此,本文利用智能手机惯性传感器进行行人主动定位,通过将主动定位结果与视觉被动定位结果进行匹配,实现行人身份识别与全局空间定位。本文利用行人航位推算方法实现行人相对位置计算。

    • 行人正常行走时会产生周期性的加速度变化,因此,利用智能手机中的加速度计数据可以估计行走步数。常见的步数检测算法包括过零检测法[24]、自相关分析法[6]和峰值检测法[7-8]等。其中,峰值检测法利用加速度数据的波峰和波谷特征,计算量小,能够消除用户停止行走状态时的误判。本文首先利用巴特沃兹低通滤波对加速度数据进行噪声去除,然后采用峰值检测方法检测行人行走步数,其检测规则如下。

      1)检测波峰:当前点加速度从上升趋势变化为下降趋势;在达到波峰时,已持续上升次数大于或等于两次;波峰值的大小$ {g}_{\mathrm{p}\mathrm{e}\mathrm{a}\mathrm{k}} $满足1.2g < $ {g}_{\mathrm{p}\mathrm{e}\mathrm{a}\mathrm{k}} $ < 2g,其中g为当地重力加速度值。

      2)动态阈值:设定波峰、波谷初始化差值,判断有效步的时间差值。根据文献[25],每当检测有效步数大于3时,根据加速度峰值比,对后续加速度阈值进行更新,实现动态的阈值调整。

      3)检测步数:当检测到波峰,且符合时间差与波峰波谷阈值条件,则判定为1步;将每次的差值归纳于阈值计算中。

      为了验证步数检测方法的有效性,安排实验人员手持智能手机行走,对其进行步数检测,结果如表 1所示,可知此方法检测步数的误差小于3%。

      表 1  步数检测结果

      Table 1.  Results of Step Number Estimation

      距离/m 实际步数 检测步数 误差/%
      50 72 74 2.8
      70 98 100 2.0
      100 140 144 2.9
    • 行人航位推算的主要思想是利用检测的行走步数,结合步长估计和航向角度估计结果进行相对位置计算,其计算公式为:

      $$ \left\{\begin{array}{c}{x}_{n+1}={x}_{n}+{L}_{n}\mathrm{s}\mathrm{i}\mathrm{n}\left(\sum\limits_{i=1}^{n}{\theta }_{i}\right)\\ {y}_{n+1}={y}_{n}+{L}_{n}\mathrm{c}\mathrm{o}\mathrm{s}\left(\sum\limits_{i=1}^{n}{\theta }_{i}\right)\end{array}\right. $$ (5)

      式中,($ {x}_{n+1} $,$ {y}_{n+1} $)表示行走$ n $步之后的位置坐标;$ {\theta }_{i} $是第$ i $步的航偏角;$ {L}_{n} $表示步长。对于步长L估计采用文献[26]提出的步长计算方法:

      $$ L=af+b $$ (6)

      式中,f 表示步频;ab是系数。

      航位推算中的航向角通过智能手机内置加速计和磁力计,基于旋转矩阵的方式进行计算。然而由于传感器漂移误差的存在,航向角估计误差会随着时间的增加快速积累,是惯性航位推算的主要误差源之一,从而导致航位推算方法难以适应较长时间的连续定位。因此,本文方法只利用惯性定位方法进行短时间的行人运动特征感知,将感知结果作为视觉被动定位中行人身份识别的依据,并利用视觉定位结果持续修正惯性定位误差,减小惯性累积误差的影响。

    • 如前文所述,针对单目视觉定位的范围有限、容易受到视觉盲区影响、视场范围内的多目标行人难以区分等问题,本文提出视觉与惯性协同的室内定位方法,利用两个维度(视觉和惯性)的数据对行人运动时序特征进行描述,提出视觉与惯性特征序列匹配算法,实现两者的协同定位。

    • 行人在运动过程中会产生连续的运动行为,构成运动特征序列。本文将其中的典型行为定义为运动行为特征,包括转弯类型(顺时针、逆时针)d、转弯时刻t和行走距离s。对运动特征序列分别采用两个维度的信息进行描述:惯性运动行为特征$ {I}_{i} $和视觉运动行为特征$ {V}_{i} $。

      惯性运动行为特征主要利用惯性传感器数据进行转弯检测(如图 2所示),通过分析航向角的变化判定转弯时刻和类型,判定规则如下。

      图  2  转弯探测示例

      Figure 2.  An Example for Turning Detection

      1)逆时针转弯:当角速度的波峰值$ {\omega }_{p} $大于阈值$ \omega $,且短时间内持续出现$ \left|\left.\omega \right|\right.<{\omega }_{p} $;

      2)顺时针转弯:当角速度的波谷值$ {\omega }_{v} $小于阈值$ -\omega $,且短时间内持续出现$ -\left|\left.\omega \right|\right.>{\omega }_{v} $。

      本文实验设定$ \omega $的值为1。当检测到对应转弯类型时,记录该转弯时刻$ {t}_{i} $;当连续检测到两个转弯类型时,利用步长估计、步数检测算法计算当前转弯与上一转弯的距离$ {s}_{i} $,进而构建惯性运动行为特征$ {I}_{i}=\{{d}_{i}, {t}_{i}, {s}_{i}\} $。

      视觉运动行为特征的构建主要通过对每一帧图像中行人位置的定位和跟踪实现。对任意行人目标,通过视觉被动定位可以得到定位点坐标$ ({x}_{j}, {y}_{j}) $,在此基础上通过连续帧定位数据可以得到该行人的轨迹信息。由于视频采样率较高(30帧/s),将k帧图像作为一个判定单元(本文实验中设置为15帧),利用单元内所有图像帧中该行人的坐标均值作为单元内的行人定位结果。根据相邻判定单元位置坐标差判断行人转弯方向。当连续检测到两个转弯时,利用转换后的世界坐标计算行走距离,进而得到视觉运动行为特征$ {V}_{i}=\{{d}_{i}, {t}_{i}, {s}_{i}\} $。

    • 根据上述特征计算方式,在行人跟踪定位周期内可得到行人的惯性特征序列$ \{{I}_{1}, {I}_{2}\dots {I}_{i}\} $和视觉特征序列$ \{{V}_{1}, {V}_{2}\dots {V}_{i}\} $。为实现两个特征序列的匹配,设计了一种基于时间窗口的动态匹配策略。如式(7)所示,对时间窗口(设定为5 s)内的多目标特征计算相似度矩阵:

      $$ \left[\begin{array}{c}\begin{array}{ccc}{S}_{11}& {S}_{12}& \begin{array}{cc}\dots & {S}_{1n}\end{array}\end{array}\\ \begin{array}{c}\begin{array}{ccc}{S}_{21}& {S}_{22}& \begin{array}{cc}\dots & {S}_{2n}\end{array}\end{array}\\ ⋮\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }⋮\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }⋮\mathrm{ }\mathrm{ }\mathrm{ }\end{array}\\ \begin{array}{ccc}{S}_{n1}& {S}_{n2}& \begin{array}{cc}\dots & {S}_{nn}\end{array}\end{array}\end{array}\right] $$ (7)

      相似度值$ S $的计算步骤如下:

      1)相似度初始值$ {S}_{ij} $定义为0。

      2)转弯与时间匹配:循环遍历时间窗口内惯性、视觉特征序列中的转弯类型特征d,对于转弯类型在时间阈值$ ∆t $内相同的特征序列,相似度值$ {S}_{ij} $增加$ {w}_{0} $。

      3)距离匹配:根据坐标计算空间距离,若距离差异小于阈值$ ∆d $,则$ {S}_{ij} $增加$ {w}_{0} $;若距离差异大于阈值$ ∆d $,则$ {S}_{ij} $减小$ {w}_{0} $。

      提取当前时间窗口内相似度矩阵中值最大的序列特征匹配对。若只有唯一匹配对,则匹配成功;若存在多对匹配,则保留相似度值作为下一时间窗口相似度矩阵的初值。该算法经多次循环;直到惯性特征与视觉特征一一对应。本文实验中$ {w}_{0} $值设置为1。

    • 将惯性特征与视觉特征进行匹配能够实现多目标行人的身份匹配与识别。在此基础上,通过视觉与惯性协同定位实现多相机范围内的行人连续定位。如前所述,视觉定位方式具有较高的定位精度,因此本文的协同定位方法主要利用视觉定位实现行人的跟踪,利用惯性数据同步进行航位推算,并持续利用视觉定位结果修正惯性定位累计误差。当视觉目标检测结果丢失、目标进入视觉盲区、视觉漏检时,即切换利用惯性航位推算进行补充定位,直至视觉定位再次成功。

      视觉定位盲区通常是由障碍物的遮挡造成的。如图 3所示,假设当前行人视觉定位点P的像素坐标为$ (u, v) $,障碍物顶点坐标为$ ({u}_{mi}, {v}_{mi}) $。以P为起点任意方向做射线,当射线与障碍物边界交线个数为奇数时,判定P点在障碍物内;否则,P在障碍物多边形外部。当判定行人进入视觉盲区(障碍物内部)时,以最后视觉定位点作为起点,利用航位推算方法补充盲区内行人定位轨迹,直到再次得到视觉定位结果(当前相机范围或其他相机范围)。

      图  3  视觉定位盲区

      Figure 3.  Blind Area of Visual Localization

      在行人视觉检测过程中,存在行人并未进入视觉盲区,但持续丢失该行人检测结果的情况(即行人漏检)。此时使用漏检前的最后视觉定位结果作为航位推算起点,持续计算行人运动轨迹。当视场范围内重新出现新目标行人时,计算目标位置$ {P}_{w\_\mathrm{n}\mathrm{e}\mathrm{w}} $与漏检目标惯性推测位置$ {P}_{w\_\mathrm{l}\mathrm{o}\mathrm{s}\mathrm{e}} $间的距离$ \mathrm{\Delta }D $。若$ \mathrm{\Delta }D<2\mathrm{ }\mathrm{m} $,则判定新增目标为漏检行人,再次利用视觉定位方式进行连续定位。

    • 本文选取深圳大学汇星楼平台作为实验区域,面积为14 m×20 m。如图 4所示,实验区域内安装有两个固定相机(小米智能摄像,1 920$ \times $1 080像素),相机视场范围覆盖大部分实验区域。为了验证本文视觉惯性协同定位方法的精度,选择4条实验路径,每间隔2 m布设地面参考点(用于评估定位误差)。4名实验人员同时持智能手机在沿着指定路径行走,持续获取行人运动过程中的惯性传感器数据和相机视频图像数据。当实验人员经过地面参考点时,分别利用被动视觉定位算法和视觉惯性协同定位方法计算行人的室内空间坐标,并统计位置误差。此外,为了进一步分析定位算法的空间连续性,使用相邻定位点之间的平均距离M和距离标准差$ \sigma $作为统计指标:

      图  4  实验区域

      Figure 4.  Experimental Area

      $$ M=\frac{\sum _{i=1, j=1}^{N}U({P}_{i}, {P}_{j})}{N} $$ (8)
      $$ \sigma =\sqrt[]{\sum _{k=1}^{n}\frac{\left[U\right({P}_{i}, {P}_{j}{)-M]}^{2}}{N}} $$ (9)

      式中,$ {P}_{i} $表示定位点坐标;N表示定位点个数;U表示相邻两点之间的距离。

      实验首先利用§1.1的行人检测与跟踪方法对2个固定相机中的行人目标进行检测,计算相机连续图像帧中每个行人的像素坐标,并对轨迹进行跟踪,计算结果如图 5所示。

      图  5  行人检测与跟踪

      Figure 5.  Detecting and Tracking of Pedestrian Using Two Different Cameras

      利用§1.2介绍的相机标定方法对相机A和相机B分别进行标定,标定参数如表 2所示。利用标定后的内外参数和畸变系数构建坐标转换模型,将像素坐标转换为世界坐标,其结果如图 6所示。4位行人的视觉定位结果与其真实轨迹基本吻合,其中,由于c行人在行人检测的过程中存在很多漏检的情况,导致其定位点存在较多缺失;行人ab在转角处存在相互重叠,导致其转弯处的定位点存在少量的相互影响;行人d的定位点比较稳定,较好地表现了其真实的运动路线。

      图  6  视觉被动定位结果

      Figure 6.  Results of Visual Passive Localization

      表 2  相机标定参数

      Table 2.  Parameters of Camera Calibration

      参数 数值/像素
      $ \mathrm{d}x $ 1/1 324.3
      $ \mathrm{d}y $ 1/1 318.2
      $ {u}_{0} $ 957.8
      $ {v}_{0} $ 561.5

      行人定位误差统计结果如表 3所示。可以看出,4条轨迹的定位误差的均方差均小于11 cm,行人abd的平均定位误差均小于30 cm;行人c的平均定位误差相对最大,但仍低于40 cm。其原因是行人c漏检情况过多,在经过地面参考点位置时其定位点与参考点偏差较大。统计4条轨迹的累计定位误差,最大误差不大于60 cm,80%的定位精度在40 cm以内。

      表 3  视觉定位误差统计结果

      Table 3.  Statistic Results of Visual Localization

      实验人员 最大误差/cm 平均误差/cm 误差均方差/cm
      a 36.8 24.8 8.9
      b 26.0 16.2 7.1
      c 50.8 37.4 10.5
      d 31.5 22.8 6.5

      在视觉被动定位后,虽然能够对4条轨迹进行精确定位,但4个行人的身份仍然是未知的。因此,本文实验首先通过视觉定位方法得到行人的初始运动轨迹,分别构建行人的视觉和惯性行为序列,利用§3.2提出的匹配方法将4组视觉行为序列和4组惯性行为序列进行持续匹配。匹配过程中,行人b在5 s时间窗口内同时在惯性数据和视频影像中探测到了转弯行为,进而识别出该行人的身份;利用转弯检测和距离匹配,判断出行人d在转弯前的惯性定位距离与视觉跟踪距离相似度$ {S}_{11} $最高,从而判定行人d的身份;在行人ac距离匹配结果相近的情况下,利用转弯方向判断发现行人a进行了顺时针转弯,行人c进行了逆时针转弯,进而完成4位行人的身份识别。在视觉定位盲区,通过与惯性的协同定位完成对行人的持续跟踪定位任务。实验结果如图 7所示,其中图 7(a)是单独采用视觉定位的结果,可见由于视野盲区和行人检测器的漏检、误检等情况的存在,视觉定位存在很多行人定位丢失区域;图 7(b)是视觉与惯性协同定位结果,可以发现4个行人的视觉与惯性数据均正确匹配(即身份正确识别),惯性定位结果能够很好地补充视觉定位的漏检和盲区缺乏定位结果的情况,特别是对于漏检情况严重的行人a的定位结果有明显提升。

      图  7  协同定位实验结果

      Figure 7.  Experimental Results of Collaborative Localization

      视觉惯性协同定位的误差统计如表 4所示,协同定位方法的精度优于被动视觉定位方法,但总体上差距较小。其原因是视觉定位的精度明显高于惯性定位。在协同定位方法中,惯性定位结果主要用于区分行人身份,以及在视觉漏检和视野盲区存在时对定位结果进行补偿。然而在定位结果连续性方面,视觉定位相邻定位点之间的平均距离为23.5 cm,大于协同定位点的平均距离(19.1 cm);视觉定位点的距离方差(18.9 cm)远大于协同定位点的距离方差(7.5 cm)。该结果表明本文提出的协同定位方法通过视觉与惯性信息的融合,可以在识别行人身份及高精度定位的基础上,进一步提高视觉被动定位结果的连续性和稳定性。

      表 4  视觉惯性协同定位误差统计结果/cm

      Table 4.  Statistic Results of Visual and Inertial Cooperative Localization/cm

      定位方法 平均误差 平均距离 距离标准差
      视觉定位 26.3 23.5 18.9
      协同定位 24.5 19.1 7.5
    • 本文提出了一种视觉与惯性协同的室内多行人目标定位方法。该方法利用固定相机拍摄到的视频进行行人目标检测,通过构建像素坐标转换模型实现多行人目标被动视觉定位,同时利用智能手机的惯性传感器感知行人惯性运动行为。在此基础上,提出一种视觉与惯性的运动特征行为序列构建方法,通过视觉与惯性的时序特性匹配实现多目标行人的区分和协同定位,改进视觉定位范围受限、轨迹缺失等问题。实验结果表明,本文提出的视觉惯性协同定位方法能够成功区别行人身份,对室内多行人目标的位置进行连续定位与跟踪,可适用于室内行人较多、人员高密集度聚集持续时间不长的场景,为大型室内场景安防与智能管理提供理论与技术支撑。

参考文献 (26)

目录

    /

    返回文章
    返回