一种面向大型室内场景的高可用手机视觉全局定位方法

柳景斌, 郭英晖, 喻文慧

柳景斌, 郭英晖, 喻文慧. 一种面向大型室内场景的高可用手机视觉全局定位方法[J]. 武汉大学学报 ( 信息科学版), 2024, 49(12): 2301-2312. DOI: 10.13203/j.whugis20210602
引用本文: 柳景斌, 郭英晖, 喻文慧. 一种面向大型室内场景的高可用手机视觉全局定位方法[J]. 武汉大学学报 ( 信息科学版), 2024, 49(12): 2301-2312. DOI: 10.13203/j.whugis20210602
LIU Jingbin, GUO Yinghui, YU Wenhui. A Visual Global Positioning Method Based on Smartphone with High Usability in Large Indoor Spaces[J]. Geomatics and Information Science of Wuhan University, 2024, 49(12): 2301-2312. DOI: 10.13203/j.whugis20210602
Citation: LIU Jingbin, GUO Yinghui, YU Wenhui. A Visual Global Positioning Method Based on Smartphone with High Usability in Large Indoor Spaces[J]. Geomatics and Information Science of Wuhan University, 2024, 49(12): 2301-2312. DOI: 10.13203/j.whugis20210602

一种面向大型室内场景的高可用手机视觉全局定位方法

基金项目: 

国家自然科学基金 42474060

湖北省自然科学基金 2024AFD403

武汉市重点研发计划人工智能创新专项 2023010402040029

武汉大学测绘遥感信息工程国家重点实验室自主科研课题资助 

详细信息
    作者简介:

    柳景斌,博士,教授,主要从事室内外定位方面的研究。ljb04@163.com

A Visual Global Positioning Method Based on Smartphone with High Usability in Large Indoor Spaces

  • 摘要:

    基于视觉的手机定位方法是室内定位中的研究热点,但面向机场、商场等大型室内环境时存在可靠性差、计算效率低等问题。针对该类场景,提出一种基于三维实景地图的粗定位-精定位二级定位方法,首先基于Wi-Fi指纹匹配粗定位结果约束匹配图像库范围,然后通过子区域分段式建立特征库以及利用深度学习的方法去除天花板图像。实验结果表明,大型室内场景下所提方法可以将视觉匹配定位精度由1.89 m提升至0.45 m,将定位计算效率提升5倍以上。所提方法能够有效降低定位时间,提升特征点云的精度,进而提升视觉匹配定位精度,同时能降低特征点匹配错误而造成定位错误的情况,可以实现高可用、亚米级精度的室内视觉全局定位。

    Abstract:
    Objectives 

    The visual global positioning based on smartphone is a research hotspot in location community services. The existing methods suffer from the problems of poor reliability and low computing efficiency especially when they are used for large indoor environments such as airport and shopping mall.

    Methods 

    This paper proposes a two-level localization method including rough localization and accurate localization, which is based on 3D real map and applied to large indoor scenes such as shopping mall. To reduce the location computing time, this paper proposes a method to limit the scope of image database. Wi-Fi fingerprint matching algorithm is used to obtain the location results, and then limit the image database. In order to improve the positioning accuracy, a new method of constructing database is proposed. The whole scene is divided into multiple regions, and each region completes the database establishment independently and splices different databases. In order to reduce the location error, a scene recognition method is proposed. Deep learning method is used to remove the ceiling images and reduce the matching errors of feature points.

    Results 

    By comparing the location computing time before and after limiting the scope of image database, the proposed method improves the positioning precision from 1.89 m to 0.45 m, and reduces the positioning time from 6.113 s to 0.827 s per image.

    Conclusions 

    The proposed method achieves sub-meter accuracy of indoor vision global positioning, while the feature points matching errors affect the positioning precision. In the future work, feature lines will be used to improve the positioning accuracy.

  • 随着智能手机和网络地理信息系统的发展,基于位置的服务已经成为人们日常生活的基础需求。在室外环境中,全球导航卫星系统(global navigation satellite system,GNSS)在绝大多数情况下均可提供精确的位置服务,但是针对越来越多的大型室内环境,基于GNSS的室内位置服务变得十分困难。研究表明,人们日常生活工作的80%以上是在室内进行的,室内定位的需求日益增加。利用智能手机进行导航定位,无缝衔接室内室外环境,已经逐渐成为不可或缺的生活服务。

    当前有许多智能手机室内定位的技术方法,包括基于无线定位技术的定位方法和基于泛在信号(如Wi-Fi、蓝牙和地磁场)指纹匹配方法定位[1-2]。基于惯性导航定位的方法包括运用惯性传感器测量移动平台的运动状态(如加速度和角速度等)、通过行人航迹推算(pedestrian dead reckoning,PDR)方法估计移动平台的相对位置变化等。现有的室内定位技术中,无线定位技术需要安装大量专用基站;泛在信号指纹匹配定位方法需要耗费大量的人力采集指纹库,且受到不同类型终端差异的影响,其2~5 m的定位精度不能满足应用要求;惯性导航技术是一种航迹推算相对定位技术[3],存在误差累积的问题[4-5],因此,需要与绝对定位技术组合成为一个完整的定位系统,同时使用外部定位源对惯性导航误差进行矫正。总之,目前的定位技术在定位精度、可用性和成本等方面不能满足应用要求。

    因此,基于视觉的低成本、高精度手机定位方法应运而生。基于视觉的定位方法最早由谷歌提出,室外、城市、峡谷等缺少GNSS信号的场景下实现定位的功能[6],室外环境拍摄的图像通常具有丰富的纹理,可以使用运动恢复结构(structure from motion,SfM)计算图像的内外参数[7]。而在室内环境中,不仅存在缺乏图像纹理,还存在大量重复性结构,使SfM无法发挥有效作用[8-9]。同步定位与建图(simultaneous location and mapping,SLAM)的方法可以提供面向室内场景的高精度图像定位结果,但SLAM作为相对定位方法,无法实现全局定位。同时由于传感器测量数据存在误差,无论何种扫描帧匹配方法均存在一定的误差,通过相邻帧匹配的方式得到的相对位姿的误差将不可避免地随着时间的延长而增加。因此,SLAM室内视觉定位需要2D激光雷达(light detection and ranging,LiDAR)SLAM以及泛在信号加以辅助,完成精确室内定位[10]。基于n点透视位姿求解(perspective-n-point,PnP)算法的视觉定位尽管理论上可以达到厘米级定位精度,但是大型室内空间的计算复杂度较高,手机的计算资源有限,传统的视觉匹配方法难以在手机上实现实时定位,影响视觉定位技术的可用性。同时随着定位场景面积增大,定位精度会降低,定位时间会延长[11]

    本文在地图构建过程中使用自主研发设备的相机、Wi-Fi、2D LiDAR以及惯性传感器,采集Wi-Fi指纹的坐标以及位姿已知的图像数据。在定位过程中,以相机为主要传感器,将复杂的室内空间结构和环境转化为丰富的定位信号源,提出了一种基于智能手机的多传感器融合室内视觉全局定位方法。在现有视觉定位方法的基础上,本文的主要贡献在于:

    1)针对大型室内空间视觉全局定位计算复杂度大的问题,采用粗定位-精定位二级定位方法,用Wi-Fi指纹匹配粗定位结果提高视觉匹配定位的计算效率,提升本文算法的可用性。

    2)针对大型室内空间的不同房间场景连续性差、难以获取共同的特征点、特征点云精度差导致定位结果精度低的问题,提出子区域分段式建库的方法,将大型室内空间分割成若干个小型场景,独立进行建库后再拼接得到特征点云库,优化了建库过程,提高点云精度,进而提高定位精度。

    3)针对室内弱纹理区域和重复性结构区域易产生特征点匹配错误的问题,对图像库进行了自动识别与分割,删除弱纹理及重复性结构区域,从而减少定位错误的概率,增强了定位结果的可靠性和可用性。

    本文采用自主研制的手持便携式泛在信号环境感知设备进行数据采集,通过控制点坐标和坐标转换获取采集设备的位置姿态,得到位姿已知的图像和坐标已知的Wi-Fi指纹库,流程如图1

    图  1  室内视觉全局定位方法整体流程图
    Figure  1.  Workflow of Indoor Visual Global Positioning Method

    示。首先,利用图像特征匹配和多视点前方交会法计算得到特征点云,作为后续匹配和查询的数据库;其次,根据Wi-Fi粗定位结果,对于图像库和特征点云的范围进行限制;然后,对用户输入图像进行特征提取,在图像库中进行查询,采用特征匹配和姿态投票的方法得到匹配正确的图像;最后,利用未知焦距的透视四点法计算查询图像的内外参数,进而计算得到智能手机的精确位置。

    首先进行Wi-Fi指纹库和图像特征库的采集和建立,使用自主研制的手持便携式泛在信号环境感知设备,利用已知坐标的控制点将获取的位置数据转换至大地坐标,得到具有绝对坐标的Wi-Fi指纹库以及图像特征库。数据采集设备如图2所示,手持设备上带有1个单线激光雷达、1个由多个相机组成的全景相机、1个惯性测量单元(inertial measurement unit,IMU)及用于Wi-Fi信号接收模块。其中单线激光雷达和IMU负责组成SLAM系统,全景相机负责采集图像数据,后期用来生成彩色点云。通过2D LiDAR SLAM[12],平台计算整个运行轨迹的姿态参数,已知内外参数用于构建三维点云。Wi-Fi信号室内动态指纹库提供了带地理位置参考的信号强度特征数据,且因为是基于同一数据采集设备,与前述点云坐标对齐。

    图  2  数据采集设备
    Figure  2.  Data Acquisition Equipment

    图像特征点云是视觉特征匹配全局定位的数据基础。通过手持设备的全景摄像头获取图像,经过特征提取、特征匹配得到同名点对,再对已知位姿的图像进行前方交会,得到已知绝对坐标的三维特征点云[13],流程如图3所示。在特征点云的获取过程中,特征提取和匹配是主要环节。

    图  3  特征数据库建立流程图
    Figure  3.  Construction Workflow of Feature Database

    在特征提取、特征描述过程中,基于室内场景及图像采集过程的特点,选用对图像选择表现出更好的稳定性、且对视角变换也最为稳定的尺度不变特征变换(scale invariant feature transform,SIFT)[14]算子。特征提取后,通过汉明嵌入法识别到相似图像,选择前N张图像进行匹配,可大幅度提升计算效率,进行相似图像检索[15]

    在相似图像之间进行图像特征匹配,匹配后的图像对进行前方交会,利用已知位置和姿态的图像获取到特征点云[16]。在进行特征匹配之后,采用联合搜索方法将图像中的特征点连接到图像中,得到二维图像点的三维坐标,生成如图4(a)所示点云。

    图  4  RANSAC算法剔除特征点云离群值
    Figure  4.  Results of Removing Outliers from Feature Point Cloud Using RANSAC Algorithm

    在通过图像特征匹配获取三维点云的过程中,由于同楼层不同封闭场景的连续性较差,图像匹配过程易出现点数过少、匹配错误的问题,因此将整个场景分割成为多个子区域,进行分段式建库,可以得到位置精度更高的特征点云,进而提升定位结果精度。

    进行分段式建库并采用随机抽样一致(random sample consensus,RANSAC)算法剔除相应的离群值后,得到如图4(b)所示的最终点云结果。

    其中背景是特征点云,绿点是相机曝光位置,绿点连线为手持设备采集轨迹。分段式建库并完成几何检校后,减少了点云中的许多的误匹配及离群值。完成上述细节处理后,将生成的特征点云和像主点空间坐标等数据关联,即得到相应特征点云在空间中的位置及姿态,特征点的空间坐标即可以用于下一步手机定位过程中图像位姿解算[17]

    位于天花板的一些弱纹理区域、重复性结构区域对于定位过程会产生定位失败和定位错误的干扰。完成特征点云建库后,需要对特征库、图像库进行进一步优化,提升定位的精度。因此,建库之后,需要对天花板区域进行识别及去除。

    使用全卷积网络(fully convolutional network,FCN)VGG16进行室内场景估计,得出布局估计结果,再利用这一结果对天花板区域进行去除。布局估计的目的是识别室内规则的三维结构信息,将室内对象划分为墙面、地板和天花板3个类别,并提取边界[18]。需要对训练图像进行布局结构线标记,忽略室内空间的所有遮挡,提取并标记出墙面、地板和天花板之间完整的三维结构线,如图5所示。即使在实际场景中存在遮挡,训练标记中的所有像素都被认为是室内粗略三维布局,其他像素都作为背景,将图像天花板的顶部区域进行去除[19]

    图  5  室内空间估计结果
    Figure  5.  Results of Indoor Layout Estimation

    本文的定位方案是一种粗定位-精定位的方案,解决当前定位方法中定位时间过长的问题。在视觉匹配和定位计算过程中,数据库中图像遍历计算,需要耗费大量计算时间,无法达到行人智能手机实时定位的要求。因此,本文利用Wi-Fi指纹匹配定位结果提供手机的粗位置约束,以降低视觉定位图像匹配时间。

    视觉匹配定位算法在面向大型场景时,会由于计算时间过长而导致可用性差,利用粗定位结果作为位置约束来提升计算效率。Wi-Fi指纹匹配定位法不依赖额外的设施,也不需要信号接入点的位置、发射功率等信息,且在应用于手机端

    时只需要安装应用软件即可使用,实现了成本低、可用性高,因此选择Wi-Fi指纹匹配法作为粗定位结果的获取手段。该方法的定位精度约为3~5 m,可以将其为视觉匹配精确定位提供粗位置。

    基于采集到的Wi-Fi指纹库,用Wi-Fi指纹匹配法获取手机的粗位置[20],包含指纹训练和匹配定位两个步骤:

    1)指纹训练首先要在需要提供定位服务的室内环境中设计并布置指纹数据采集点[21],然后依次在所有指纹数据采集点处获取来自多个AP(access point)在该点的接收信号强度等信息,最后将采集到的信息对应采集点的空间位置信息在系统数据库进行存储。由手持便携式泛在信号环境感知设备手持设备进行指纹数据采集和位置获取。

    2)匹配定位在手机端进行,利用智能手机自带的传感器获取当前位置的Wi-Fi信号相关参数,选择合适的匹配算法在事先准备好的指纹数据库中找出与之比较相似的数据,得到这些数据对应的坐标,再对这几组坐标进行相关转换与处理后就可以估计出该智能手机的当前位置坐标[22]。定位过程的累计分布函数(cumulative distribution function,CDF)及误差分布情况如图6所示[23]。计算所有测试点的均值为3.050 6 m,均方根值(root mean square,RMS)为3.647 0 m。

    图  6  Wi⁃Fi定位结果精度
    Figure  6.  Accuracy of Wi⁃Fi Location

    建立图像特征三维点云后,用户输入图像进行视觉匹配全局定位。其中,Wi-Fi指纹匹配方法的定位精度约为3~5 m,将定位结果的XY坐标分别加减5 m为范围,限制视觉定位过程中用于匹配的图像范围,再进行视觉精确定位过程[24]。视觉匹配定位是通过利用特征匹配连接图像上的二维点和建立的三维点云,获取其在真

    实世界中的三维坐标,进行求解得到手机位置。定位过程主要分为图像查询匹配和位姿解算两个步骤,具体流程如图7所示。

    图  7  基于视觉的精定位流程图
    Figure  7.  Workflow of Accurate Postioning Based on the Visual

    首先对用户输入图像和图像库中的图像进行查询匹配,在粗定位结果的基础上,对于图像库范围进行了限制,待匹配数据剩余少于K张图像。通过相似图像检索,得到和输入图像最相似的场景,再选择最佳匹配图像[25-29]。得到最佳匹配图像后,进行位姿解算。将用户输入图像与最佳匹配图像进行特征匹配,利用特征点与三维点的关系,得到查询图像上特征点的空间三维坐标。

    用PnP计算查询图像的外参数,定位阶段是在前期建立的场景图以及三维点云模型中分别进行图像匹配和位姿解算的过程:假设世界坐标系某一点P的齐次坐标为P=[X  Y  Z  1]T,映射到图像坐标系为x1=[u1  v1  1]T。二者投影关系计算式如下:

    sx1=KRcwI|-tw]P=TP (1)

    式中,“|”表示增广矩阵;s表示尺度系数;K表示相机内参;Rcw表示世界坐标系到相机坐标系的旋转矩阵;tw表示相机光心在世界坐标系下的坐

    标;I为单位矩阵;T=KRcwI|-tw]表示投影模型,是一个3×4的变换矩阵。将式(1)展开为:

    su1v11=t1t2t3t4t5t6t7t8t9t10t11t12XYZ1 (2)

    定义T的3个行向量分别为t1t2t3,于是有:

    t1P-t3Pu1=0t2P-t3Pv1=0 (3)

    如果有n个投影点,则可以列出如下方程组:

    P1T0-u1P1T0P1T-v1P1TPnT0-unPnT0PnT-vnPnTt1t2t3=0 (4)

    T共有12个未知数,因此至少通过6对匹配点即可实现矩阵T的线性求解。当匹配点多于6对时,也可以使用奇异值分解(singular value decomposition,SVD)求最小二乘解。将式(1)展开得:

    T=KRcw|-KRcwtw]=H,h (5)

    式中,旋转矩阵Rcw为正交矩阵;内参矩阵K为上三角矩阵;tw为平移向量;HhT的分块矩阵,因此有:

    H=KRcwh=-KRcwtwtw=-H-1h (6)

    H-1进行正交三角形分解即可得到Rcw-1K-1,再对Rcw-1K-1分别求逆即可得到相机的旋转矩阵和内参数。

    本文在一个典型的室内办公环境开展实验验证,实验地点是武汉大学诗琳通地球空间信息科学国际研究中心大楼。一楼占地面积大小约为20 m×80 m,面积约为1 600 m2,数据集1包含930张图像,采集场景及区域分布如图8所示。拍摄人员从不同的视角和位置捕获图像,智能手机捕获图像位置即为控制点,每个控制点上拍摄4~5张图像。捕获图像位置的同时,手机利用应用程序进行粗定位并记录所提供的粗位置。

    图  8  数据集1的采集场景及区域分布
    Figure  8.  Obtaining Scene and Region Disttibution of Dataset 1

    为了评估定位的精度,在实验场景中预先由全站仪获取了21个控制点坐标,如图9所示。测试人员站在控制点上拍下待定位图像,还原了用户手持智能手机进行拍照定位的过程,控制点坐标即视为用户(相机)真实位置。在拍取照片过程中,同时记录下应用软件产生的融合定位提供的粗定位结果。

    图  9  智能手机拍照所在控制点
    Figure  9.  Control Point for Smartphone Taking a Photo

    实验使用了两台智能手机来捕获查询图像,分别是三星S8和华为P30。其中,华为手机拍摄的图像大小为2 736×3 648像素,三星手机拍摄的图像大小为3 024×4 032像素。为了验证对于光照变化的稳定性,使用华为P30手机分别进行了不同光线下(白天自然光照和晚上灯光光照)的图像获取和定位,图像对比效果如图10所示。

    图  10  同一手机站同一控制点不同光照下拍摄的图像
    Figure  10.  Images Taken by the Same Mobile Phone in Different Lights at the Same Control Point

    在实验中,如果匹配特征点的数量少于6,则视为图像无效。在数据集1中,三星S8提供的图像总数为138张,其中有效图像116张;华为P30自然光照下数据集中总共有157张图像,其中有效图像138张;华为P30灯光下数据集中总共有128张图像,其中有效图像94张。

    在定位过程中,将所拍摄图像的顶部天花板进行了剔除。精度提升情况以华为P30手机白天拍摄数据为例,将拍摄图像分别在剔除天花板前后的数据库中进行匹配定位,实验结果如表1

    表  1  数据集1的图像去除天花板前后精度对比
    Table  1.  Accuracy Comparison of Images Before and After Ceiling Removal in Dataset 1
    项目误差项剔除前剔除后
    输入图像数量/张157157
    有效图像数量/张139138
    RMS水平误差/m1.460.74
    垂直误差/m1.210.42
    d/m1.890.85
    68%(1δ水平误差/m0.790.74
    垂直误差/m0.580.39
    d/m0.980.84
    最大误差水平误差/m4.972.34
    垂直误差/m2.911.66
    d/m5.762.87
    下载: 导出CSV 
    | 显示表格

    示。其中,水平方向真值来源于控制点坐标,垂直方向真值来源于捕获图像时量测的智能手机高度,68%(1δ)表示落在±1δ范围内的概率是68%,Δd表示总误差。由表1可以看出,在剔除天花板后,定位误差过大,即定位错误的情况大幅度减少,验证了本文方法对于定位可靠性的提升。

    在数据集1中,不同光照条件下拍摄的定位图像对比实验结果如表2所示。由于用于特征库图像是在白天自然光照条件下采集,从实验结果可以看出,光照改变会影响视觉定位效果,但可以保证68%的有效图像定位精度不低于1.27 m,验证了本文方法对于光照变化的稳定性。

    表  2  数据集1的精度评估
    Table  2.  Accuracy Assessment of Dataset 1
    项目误差项三星S8华为P30白天拍摄华为P30灯光拍摄
    输入图像数量/张138157128
    有效图像数量/张11613894
    RMS水平误差/m0.980.741.00
    垂直误差/m0.350.420.94
    d/m1.040.851.37
    68%(1δ水平误差/m0.890.740.93
    垂直误差/m0.340.390.87
    d/m0.850.841.27
    下载: 导出CSV 
    | 显示表格

    以一楼的接待室作为单独区域进行实验,采集数据集2,数据采集区域如图11中红色框范围内所示。接待室地面尺寸为7.8 m×7 m,并且使用前述两种智能手机采用相同作业方式,在对应控制点采集的拍摄图像和粗定位结果进行实验。

    图  11  数据集2的采集区域
    Figure  11.  Acquired Region of Dataset 2

    在数据集2中,三星S8提供的图像总数为33张,其中有效图像31张;华为P30自然光照下数据集中总共有32张图像,其中有效图像29张;华为P30夜晚灯光光照下数据集中总共有32张图像,其中有效图像25张。

    为了验证子区域分段式建库方法对于定位精度提升的有效性,以华为P30手机白天拍摄数据为例,对接待室范围采用两种方式的点云建库:(1)将接待室范围内的图像和点云分离出来形成独立区域。(2)将接待室内图像进行了单独三维建模后与全层其他点云数据进行拼接,和全楼层图像数据统一建库形成数据。两种建库方式的定位精度对比如表3所示。另外,对数据集2做与数据集1同样的定位实验,结果如表4所示。

    表  3  两种建库方案精度对比
    Table  3.  Accuracy Comparison of Two Strategies
    项目误差项整层建库分段式建库后拼接
    输入图像数量/张3232
    有效图像数量/张2929
    RMS水平误差/m0.720.46
    垂直误差/m0.260.19
    d/m0.770.49
    68%(1δ水平误差/m0.730.40
    垂直误差/m0.370.21
    d/m0.820.45
    下载: 导出CSV 
    | 显示表格
    表  4  数据集2的精度评估
    Table  4.  Accuracy Evaluation of Dataset 2
    项目误差项三星S8华为P30白天拍摄华为P30灯光拍摄
    输入图像数量/张333226
    有效图像数量/张312921
    RMS水平误差/m0.640.460.69
    垂直误差/m0.210.190.42
    d/m0.670.490.80
    68%(1δ水平误差/m0.570.400.59
    垂直误差/m0.270.210.41
    d/m0.630.450.72
    下载: 导出CSV 
    | 显示表格

    数据集2的定位结果与数据集1剔除天花板前影像的定位结果对比可知,RMS由1.89 m降至0.45 m,可见子区域分段式建库得到的定位结果大幅度优于整层楼建库的结果。以一整层为单位的数据采集和图像建库方法依赖于场景的连贯性,不同封闭空间之间的连续性较差,精度会受到较大影响,实验结果验证了将整层场景分散为小闭环,减小建库范围的建库过程,可以进一步提升手机视觉定位精度。误差分布如图12所示。

    图  12  定位误差分布
    Figure  12.  Location Error Distribution

    本文所提智能手机的定位过程是将图像和粗位置结果先上传至服务器端进行匹配定位,再将结果返回。本文实验使用的计算机配置为Intel Corei7 6820HK 处理器,40.0 GB内存。相同硬件条件下,数据集1和数据集2的定位计算时间分别如表5表6所示。

    表  5  数据集1加入粗定位结果后的时间对比
    Table  5.  Computational Time in Dataset 1 After Adding Coarse Positioning Results
    过程全层图像库用时5 m范围内图像库用时
    特征提取/ms<1<1
    相似图像查询/s2.0510.473
    特征匹配/s3.7420.756
    位姿计算/s0.3100.340
    总计/s6.1131.569
    下载: 导出CSV 
    | 显示表格
    表  6  数据集2加入粗定位结果后的时间对比
    Table  6.  Computational Time in Dataset 2 After Adding Coarse Positioning Results
    过程接待室图像库用时5 m范围内图像库用时
    特征提取/ms<1<1
    相似图像查询/s1.0510.249
    特征匹配/s1.1420.288
    位姿计算/s0.3300.290
    总计/s2.5230.827
    下载: 导出CSV 
    | 显示表格

    表5中可以看出,在没有初始位置的情况下,每张影像定位所需的时间为6.113 s;加入粗定位结果以5 m为范围进行待查询图像限定后,每张影像定位所需的时间为1.569 s。由表6中可以看出,在没有初始位置时,每张影像定位所需时间为2.523 s;加入粗定位结果并且剔除顶部摄像头拍摄图像后,每张影像定位的时间为0.827 s。

    表5表6中数据可知,加入粗定位结果,提高了计算效率,表现了定位方法的可用性。本文实验场地面积为20 m×80 m,所采数据为930张,而商场、机场、车站等场景面积会远远大于实验数据,如果将一整层图像都作为匹配对象,所需定位时间将远远超过6 s[29]

    实验结果及分析表明,基于粗定位结果对于匹配数据库进行限制,可以大幅度提升视觉定位计算效率,且定位速度不会随场景面积增大而变化。从粗定位到精定位,以环境感知粗定位方法增强高精度视觉定位,减少整体定位方案的计算复杂度,提升手机视觉匹配定位方法在大型室内场景下的可用性。

    本文算法在室内视觉定位的精度、计算效率及结果的可靠性上有显著提升。在类似的视觉匹配定位方法中,如文献[30]中取得的定位精度的RMS大于1 m,定位计算时间超过60 s,相较而言,本文所述方法在定位精度方面有显著提升。

    基于数据集2的实验中使用了三星S8和华为P30两部手机,68%的图像可以获得0.63 m和0.45 m的定位精度,不同手机对于整体方案的验证证明了定位方法对于不同移动终端的有效性。针对地图采集时和定位拍照时的光照条件不同,使用华为P30手机在白天的自然光照和夜晚灯光照射下获取定位图像,68%的图像可以获得0.45 m和0.72 m的定位精度,在不同光照条件下进行定位实验,验证了本文方案对于光照变化的稳定性。

    对于顶部天花板图像具有大量特征点及大量重复性结构的特点,将剔除天花板前后的点云精度及定位精度结果进行对比,定位最大误差由5.76 m减少到2.87 m,验证了本文方案可大幅度提高定位精度,提升了本文方法的可靠性。

    基于不同建库方案下形成的特征数据库进行了定位精度结果的对比,68%的图像分别可以获得0.82 m和0.45 m的定位精度,验证了本文所提出的子区域分段式建库方法对于特征三维点云精度及视觉定位精度的有效提升。

    对于加入粗定位结果前后的定位计算时间进行了对比,将每张图像定位时间由6.113 s降至约0.827 s,验证了Wi-Fi粗定位结果作为初始位置输入对于定位效率的提升,与文献[31]中的Wi-Fi室内定位方法4 m左右的精度相比有显著提升。

    综上所述,本文方法在大型室内空间视觉全局定位计算复杂度大的问题上提供了算法支持,针对不同房间的场景连续性差难以获取共同的特征点的问题,以及室内重复性结构区域易产生的特征点匹配错误的问题,突破室内定位方法精度不足、计算复杂度高的瓶颈[32-33],实现了室内行人高精度、高可用定位。

    由于大型室内场景的特殊性,定位精度和定位时间上均面临较大的挑战[32]。在现有技术中,Wi-Fi定位精度为3~5 m,不能满足室内行人高精度定位的需求,而基于视觉的定位方法受计算复杂度的影响,每张照片的定位计算时间在6 s以上,不能满足行人定位过程的实时性要求[34],可用性较差。

    本文所提出的方法在地图构建过程中,使用到自主研发设备的相机、Wi-Fi、2D LiDAR以及惯性传感器,采集Wi-Fi指纹的坐标以及位姿已知的图像数据。在定位过程中,使用用户智能手机带有的相机及Wi-Fi传感器,用高可用的粗定位技术增强高精度视觉定位技术,是一种粗定位-精定位二级定位方法,适用于已建成高精度三维实景地图的大型室内场景下任何1台具有Wi-Fi传感器与摄像头的智能手机上均可实现高精度定位。

    在本文方法中,当少数时刻Wi-Fi粗定位获得的结果误差大于5 m时,无法得到视觉匹配定位结果[35]。但在实际应用过程中,作为优化智能手机融合定位结果的方案,在定位过程中,视觉匹配定位不需要每时每刻都给出结果,可由惯性导航、PDR等方法的融合定位辅助,保证定位过程的连续性[36]

    由于视觉匹配定位利用特征点的提取获得现实世界中的三维点,再进行特征匹配获得图像点和现实三维点之间的关系,进而解算出手机位置,因此,在纹理不丰富的区域,会有特征点少而不能满足定位需求的情况,导致定位失败。在将来的工作中,会尝试加入线特征、面特征[37]并采用深度学习[38]等方法来进一步提高定位精度和可靠性。

    http://ch.whu.edu.cn/cn/article/doi/10.13203/j.whugis20210602
  • 图  1   室内视觉全局定位方法整体流程图

    Figure  1.   Workflow of Indoor Visual Global Positioning Method

    图  2   数据采集设备

    Figure  2.   Data Acquisition Equipment

    图  3   特征数据库建立流程图

    Figure  3.   Construction Workflow of Feature Database

    图  4   RANSAC算法剔除特征点云离群值

    Figure  4.   Results of Removing Outliers from Feature Point Cloud Using RANSAC Algorithm

    图  5   室内空间估计结果

    Figure  5.   Results of Indoor Layout Estimation

    图  6   Wi⁃Fi定位结果精度

    Figure  6.   Accuracy of Wi⁃Fi Location

    图  7   基于视觉的精定位流程图

    Figure  7.   Workflow of Accurate Postioning Based on the Visual

    图  8   数据集1的采集场景及区域分布

    Figure  8.   Obtaining Scene and Region Disttibution of Dataset 1

    图  9   智能手机拍照所在控制点

    Figure  9.   Control Point for Smartphone Taking a Photo

    图  10   同一手机站同一控制点不同光照下拍摄的图像

    Figure  10.   Images Taken by the Same Mobile Phone in Different Lights at the Same Control Point

    图  11   数据集2的采集区域

    Figure  11.   Acquired Region of Dataset 2

    图  12   定位误差分布

    Figure  12.   Location Error Distribution

    表  1   数据集1的图像去除天花板前后精度对比

    Table  1   Accuracy Comparison of Images Before and After Ceiling Removal in Dataset 1

    项目误差项剔除前剔除后
    输入图像数量/张157157
    有效图像数量/张139138
    RMS水平误差/m1.460.74
    垂直误差/m1.210.42
    d/m1.890.85
    68%(1δ水平误差/m0.790.74
    垂直误差/m0.580.39
    d/m0.980.84
    最大误差水平误差/m4.972.34
    垂直误差/m2.911.66
    d/m5.762.87
    下载: 导出CSV

    表  2   数据集1的精度评估

    Table  2   Accuracy Assessment of Dataset 1

    项目误差项三星S8华为P30白天拍摄华为P30灯光拍摄
    输入图像数量/张138157128
    有效图像数量/张11613894
    RMS水平误差/m0.980.741.00
    垂直误差/m0.350.420.94
    d/m1.040.851.37
    68%(1δ水平误差/m0.890.740.93
    垂直误差/m0.340.390.87
    d/m0.850.841.27
    下载: 导出CSV

    表  3   两种建库方案精度对比

    Table  3   Accuracy Comparison of Two Strategies

    项目误差项整层建库分段式建库后拼接
    输入图像数量/张3232
    有效图像数量/张2929
    RMS水平误差/m0.720.46
    垂直误差/m0.260.19
    d/m0.770.49
    68%(1δ水平误差/m0.730.40
    垂直误差/m0.370.21
    d/m0.820.45
    下载: 导出CSV

    表  4   数据集2的精度评估

    Table  4   Accuracy Evaluation of Dataset 2

    项目误差项三星S8华为P30白天拍摄华为P30灯光拍摄
    输入图像数量/张333226
    有效图像数量/张312921
    RMS水平误差/m0.640.460.69
    垂直误差/m0.210.190.42
    d/m0.670.490.80
    68%(1δ水平误差/m0.570.400.59
    垂直误差/m0.270.210.41
    d/m0.630.450.72
    下载: 导出CSV

    表  5   数据集1加入粗定位结果后的时间对比

    Table  5   Computational Time in Dataset 1 After Adding Coarse Positioning Results

    过程全层图像库用时5 m范围内图像库用时
    特征提取/ms<1<1
    相似图像查询/s2.0510.473
    特征匹配/s3.7420.756
    位姿计算/s0.3100.340
    总计/s6.1131.569
    下载: 导出CSV

    表  6   数据集2加入粗定位结果后的时间对比

    Table  6   Computational Time in Dataset 2 After Adding Coarse Positioning Results

    过程接待室图像库用时5 m范围内图像库用时
    特征提取/ms<1<1
    相似图像查询/s1.0510.249
    特征匹配/s1.1420.288
    位姿计算/s0.3300.290
    总计/s2.5230.827
    下载: 导出CSV
  • [1] 陈锐志, 郭光毅, 陈亮, 等. 室内高精度定位技术研究应用现状与发展趋势[J]. 武汉大学学报(信息科学版), 2023, 48(10): 1591-1600.

    Chen Ruizhi, Guo Guangyi, Chen Liang, et al. Application Status, Development and Future Trend of High-Precision Indoor Navigation and Tracking[J]. Geomatics and Information Science of Wuhan University, 2023, 48(10): 1591-1600.

    [2]

    Huang B C, Liu J B, Sun W, et al. A Robust Indoor Positioning Method Based on Bluetooth Low Energy with Separate Channel Information[J]. Sensors, 2019, 19(16): 3487.

    [3]

    Anwar Q, Malik A W, Thörnberg B. Design of Coded Reference Labels for Indoor Optical Navigation Using Monocular Camera[C]//International Conference on Indoor Positioning and Indoor Navigation, Montbeliard, France, 2013.

    [4]

    Pivato P, Palopoli L, Petri D. Accuracy of RSS-Based Centroid Localization Algorithms in an Indoor Environment[J]. IEEE Transactions on Instrumentation and Measurement, 2011, 60(10): 3451-3460.

    [5]

    Yang S, Liu J B, Gong X D, et al. A Robust Heading Estimation Solution for Smartphone Multisensor-Integrated Indoor Positioning[J]. IEEE Internet of Things Journal, 2021, 8(23): 17186-17198.

    [6] 王勋, 崔先强, 高天杭. 城市环境下数据缺失定位算法比较[J]. 导航定位学报, 2020, 8(2): 43-48.

    Wang Xun, Cui Xianqiang, Gao Tianhang. Comparison of Data Missing Positioning Algorithms in Urban Environment[J]. Journal of Navigation and Positioning, 2020, 8(2): 43-48.

    [7]

    Schönberger J L, Frahm J M. Structure-from-Motion Revisited[C]// IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, USA, 2016.

    [8]

    Wu C C. Towards Linear-Time Incremental Structure from Motion[C]// International Conference on 3D Vision-3DV, Seattle, USA, 2013.

    [9] 王中宏. 基于SIFT的室内定位视觉图像匹配方法研究[D]. 哈尔滨: 黑龙江大学, 2021.

    Wang Zhonghong. Research on Indoor Positioning Visual Image Matching Method Based on SIFT[D].Harbin: Helongjiang University, 2021.

    [10]

    Wang Z M, Zhang Q, Li J S, et al. A Computationally Efficient Semantic SLAM Solution for Dynamic Scenes[J]. Remote Sensing, 2019, 11(11): 1363.

    [11]

    Gong X D, Liu J B, Yang S, et al. A Usability-Enhanced Smartphone Indoor Positioning Solution Using Compressive Sensing[J]. IEEE Sensors Journal, 2022, 22(3): 2823-2834.

    [12]

    Huitl R, Schroth G, Hilsenbeck S, et al. TUMindoor: An Extensive Image and Point Cloud Dataset for Visual Indoor Localization and Mapping[C]//IEEE International Conference on Image Processing, Orlando, USA, 2012.

    [13]

    Gao Q J, Yin D Y, Luo Q J, et al. Minimum Elastic Bounding Box Algorithm for Dimension Detection of 3D Objects: A Case of Airline Baggage Measurement[J]. IET Image Processing, 2018, 12(8): 1313-1321.

    [14] 刘肃艳, 王竞雪, 沈昭宇, 等. 结合线对几何特征及单线描述符约束的直线匹配算法[J]. 武汉大学学报(信息科学版), 2023, 48(6): 936-949.

    Liu Suyan, Wang Jingxue, Shen Zhaoyu, et al. Line Matching Algorithm Based on Pair-Wise Geometric Features and Individual Line Descriptor Constraints[J]. Geomatics and Information Science of Wuhan University, 2023, 48(6): 936-949.

    [15]

    Mikolajczyk K, Schmid C. A Performance Evaluation of Local Descriptors[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Madison, USA, 2003.

    [16]

    Xu D, Liu J B, Hyyppä J, et al. A Heterogeneous 3D Map-Based Place Recognition Solution Using Virtual LiDAR and a Polar Grid Height Coding Image Descriptor[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2022, 183: 1-18.

    [17]

    Liu J B, Xu D, Hyyppä J, et al. A Survey of Applications with Combined BIM and 3D Laser Scanning in the Life Cycle of Buildings[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021, 14: 5627-5637.

    [18]

    Hafiz A M, Bhat G M. A Survey on Instance Segmentation: State of the Art[J]. International Journal of Multimedia Information Retrieval, 2020, 9(3): 171-189.

    [19]

    Kirillov A, He K M, Girshick R, et al. Panoptic Segmentation[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, USA, 2019.

    [20]

    Rai A, Chintalapudi K K, Padmanabhan V N, et al. Zee: Zero-Effort Crowdsourcing for Indoor Localization[C]//The 18th Annual International Conference on Mobile Computing and Networking, Istanbul, Turkey, 2012.

    [21]

    Lin P, Li Q B, Fan Q X, et al. A Real-Time Location-Based Services System Using Wi-Fi Fingerprinting Algorithm for Safety Risk Assessment of Workers in Tunnels[J]. Mathematical Problems in Engineering, 2014, 371456.

    [22]

    de Francisco R. Indoor Channel Measurements and Models at 2.4 GHz in a Hospital[C]//IEEE Global Telecommunications Conference, Miami, USA, 2010.

    [23]

    Li Z, Liu J B, Yang F, et al. A Bayesian Density Model Based Radio Signal Fingerprinting Positioning Method for Enhanced Usability[J]. Sensors, 2018, 18(11): 4063.

    [24]

    Torres-Solis J, Tiago H, Chau T. A Review of Indoor Localization Technologies: Towards Navigational Assistance for Topographical Disorientation[M] Croatia: Intech Open Access Publisher, 2010.

    [25]

    Liang X L, Jaakkola A, Wang Y S, et al. The Use of a Hand-Held Camera for Individual Tree 3D Mapping in Forest Sample Plots[J]. Remote Sensing, 2014, 6(7): 6587-6603.

    [26] 徐彦彦, 赵啸, 李子君. 一种基于四元数变换的彩色遥感影像检索方法[J]. 武汉大学学报(信息科学版), 2019, 44(11): 1633-1640.

    Xu Yanyan, Zhao Xiao, Li Zijun. A Remote Sensing Image Retrieval Method Based on Quaternion Transformation[J]. Geomatics and Information Science of Wuhan University, 2019, 44(11): 1633-1640.

    [27] 张恒才, 蔚保国, 秘金钟, 等. 综合PNT场景增强系统研究进展及发展趋势[J]. 武汉大学学报(信息科学版), 2023, 48(4): 491-505.

    Zhang Hengcai, Yu Baoguo, Bi Jinzhong, et al. A Survey of Scene-Based Augmentation Systems for Comprehensive PNT[J]. Geomatics and Information Science of Wuhan University, 2023, 48(4): 491-505.

    [28] 方志祥, 徐虹, 萧世伦, 等. 绝对空间定位到相对空间感知的行人导航研究趋势[J]. 武汉大学学报(信息科学版), 2018, 43(12): 2173-2182.

    Fang Zhixiang, Xu Hong, Xiao Shilun, et al. Pedestrian Navigation Research Trend: From Absolute Space to Relative Space-Based Approach[J]. Geomatics and Information Science of Wuhan University, 2018, 43(12): 2173-2182.

    [29]

    Mautz R, Tilch S. Survey of Optical Indoor Positioning Systems[C]//International Conference on Indoor Positioning and Indoor Navigation, Guimaraes, Portugal, 2011.

    [30]

    Wu T, Liu J B, Li Z, et al. Accurate Smartphone Indoor Visual Positioning Based on a High-Precision 3D Photorealistic Map[J]. Sensors, 2018, 18(6): 1974.

    [31] 陈锐志, 叶锋. 基于Wi-Fi信道状态信息的室内定位技术现状综述[J]. 武汉大学学报(信息科学版), 2018, 43(12): 2064-2070.

    Chen Ruizhi, Ye Feng. An Overview of Indoor Positioning Technology Based on Wi-Fi Channel State Information[J]. Geomatics and Information Science of Wuhan University, 2018, 43(12): 2064-2070.

    [32]

    Liu J B, Chen R Z, Pei L, et al. A Hybrid Smartphone Indoor Positioning Solution for Mobile LBS[J]. Sensors, 2012, 12(12): 17208-17233.

    [33]

    Xu S, Chou W S, Dong H Y. A Robust Indoor Localization System Integrating Visual Localization Aided by CNN-Based Image Retrieval with Monte Carlo Localization[J]. Sensors, 2019, 19(2): 249.

    [34]

    Wu D W, Chen R Z, Chen L. Visual Positioning Indoors: Human Eyes Vs. Smartphone Cameras[J]. Sensors, 2017, 17(11): 2645.

    [35]

    Schatzberg U, Banin L, Amizur Y. Enhanced Wi-Fi ToF Indoor Positioning System with MEMS-Based INS and Pedometric Information[C]//IEEE/ION Position, Location and Navigation Symposium, Monterey, USA, 2014.

    [36]

    Kilinc C, Al Mahmud Mostafa S, Islam R U, et al. Indoor Taxi-Cab: Real-Time Indoor Positioning and Location-Based Services with Ekahau and Android OS[C]//The 8th International Conference on Innovative Mobile and Internet Services in Ubiquitous Computing, Birmingham, UK, 2014.

    [37]

    Liang J Z, Corso N, Turner E, et al. Image Based Localization in Indoor Environments[C]//The 4th International Conference on Computing for Geospatial Research and Application,Chicago,USA,2013.

    [38]

    Zhang Z B, Liu J B, Wang L, et al. An Enhanced Smartphone Indoor Positioning Scheme with Out-lier Removal Using Machine Learning[J]. Remote Sensing, 2021, 13(6): 1106.

图(12)  /  表(6)
计量
  • 文章访问数:  801
  • HTML全文浏览量:  98
  • PDF下载量:  96
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-10-17
  • 网络出版日期:  2022-10-17
  • 刊出日期:  2024-12-04

目录

/

返回文章
返回