留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

道路点云场景双层卷积语义分割

蒋腾平 杨必胜 周雨舟 朱润松 胡宗田 董震

蒋腾平, 杨必胜, 周雨舟, 朱润松, 胡宗田, 董震. 道路点云场景双层卷积语义分割[J]. 武汉大学学报 ● 信息科学版, 2020, 45(12): 1942-1948. doi: 10.13203/j.whugis20200081
引用本文: 蒋腾平, 杨必胜, 周雨舟, 朱润松, 胡宗田, 董震. 道路点云场景双层卷积语义分割[J]. 武汉大学学报 ● 信息科学版, 2020, 45(12): 1942-1948. doi: 10.13203/j.whugis20200081
JIANG Tengping, YANG Bisheng, ZHOU Yuzhou, ZHU Runsong, HU Zongtian, DONG Zhen. Bilevel Convolutional Neural Networks for 3D Semantic Segmentation Using Large-scale LiDAR Point Clouds in Complex Environments[J]. Geomatics and Information Science of Wuhan University, 2020, 45(12): 1942-1948. doi: 10.13203/j.whugis20200081
Citation: JIANG Tengping, YANG Bisheng, ZHOU Yuzhou, ZHU Runsong, HU Zongtian, DONG Zhen. Bilevel Convolutional Neural Networks for 3D Semantic Segmentation Using Large-scale LiDAR Point Clouds in Complex Environments[J]. Geomatics and Information Science of Wuhan University, 2020, 45(12): 1942-1948. doi: 10.13203/j.whugis20200081

道路点云场景双层卷积语义分割

doi: 10.13203/j.whugis20200081
基金项目: 

国家杰出青年科学基金 41725005

国家自然科学基金 41531177

中国博士后科学基金 2018M642913

详细信息
    作者简介:

    蒋腾平,博士生,主要研究方向为三维点云语义识别和建模。jiangtp_3d@whu.edu.cn

    通讯作者: 杨必胜,博士,教授。bshyang@whu.edu.cn
  • 中图分类号: P208

Bilevel Convolutional Neural Networks for 3D Semantic Segmentation Using Large-scale LiDAR Point Clouds in Complex Environments

Funds: 

The National Natural Science Foundation of China for Distinguished Young Scholars 41725005

the National Natural Science Foundation of China 41531177

the China Postdoctoral Science Foundation 2018M642913

More Information
    Author Bio:

    JIANG Tengping, PhD candidate, specializes in semantic identification and modeling of 3D point clouds.E-mail: jiangtp_3d@whu.edu.cn

    Corresponding author: YANG Bisheng, PhD, professor. E-mail: bshyang@whu.edu.cn
  • 摘要: 在大规模道路环境中,基于点的语义分割方法需要动态计算,而基于体素的方法权衡分辨率和性能导致损失大量信息。为了克服上述两类方法的缺陷,提出了一种通用的结合双层卷积和动态边缘卷积优化的网络架构来进行大型道路场景语义分割。该框架结合点与超体素两种不同域的卷积运算来避免冗余的计算和存储网络中的空间信息,并结合动态边缘卷积优化,使其端到端地一次性处理大规模点云。在不同场景的数据集上对该方法进行了测试与评估,结果表明,该方法能适应不同场景数据集并取得较高精度,优于现有方法。
  • 图  1  超体素生成结果

    Figure  1.  Results of Supervoxel Segmentation

    图  2  本文模型架构示意图

    Figure  2.  Architecture Illustration of the Proposed Model

    图  3  基于超体素与注意力机制相结合的图卷积网络示意图

    Figure  3.  Illustration of Graph Attention Neural Network Based on Supervoxel

    图  4  城市环境语义分割结果

    Figure  4.  Result of Semantic Segmentation on Urban Area

    图  5  高速公路环境语义分割结果

    Figure  5.  Result of Semantic Segmentation on Highway Environment

    图  6  Semantic3D和S3SIS基准数据集语义分割结果

    Figure  6.  Result of Semantic Segmentation on Semantic3D and S3SIS Datasets

    表  1  城市/高速场景数据精度对比/%

    Table  1.   Comparison of Accuracies of the Proposed Method and Reference[22] on Urban and Highway Datasets/%

    方法 城市场景 高速场景
    精确度 召回率 精确度 召回率
    本文方法 94.9 93.8 91.1 91.5
    文献[22] 90.6 91.2
    下载: 导出CSV

    表  2  Semantic3D数据精度比较/%

    Table  2.   Comparison of Accuracies of Different Methods on Semantic3D Dataset/%

    方法 mIoU 草坪 地面 树木 灌木 建筑 花坛 设施
    文献[25] 67.5 86.8 80.9 88.1 50.6 93.4 32.8 41.3 69.5
    文献[7] 61.3 83.9 66.0 86.0 40.5 91.1 30.9 27.5 64.3
    文献[26] 70.8 86.4 77.7 88.5 60.6 94.2 37.3 43.5 77.8
    本文方法 73.2 97.4 92.6 87.9 44.0 93.2 34.7 63.5 79.7
    下载: 导出CSV

    表  3  S3DIS数据精度比较/%

    Table  3.   Compare of Accuracies of Different Methods on S3DIS Dataset/%

    方法 mIoU 屋顶 地板 墙面 窗户 椅子 桌子 书柜 沙发 面板 其他
    文献[25] 49.7 90.3 92.1 67.9 44.7 24.2 52.3 51.2 47.4 58.1 39.0 6.9 30.0 41.9
    文献[7] 52.5 90.6 90.1 74.2 31.3 29.0 46.6 61.9 54.9 56.6 45.4 16.6 34.9 46.8
    文献[27] 56.5 92.5 92.8 78.6 32.8 34.4 51.6 68.1 59.7 60.1 50.2 16.4 44.9 52.0
    本文方法 60.2 92.2 96.9 82.6 46.5 34.6 51.7 40.1 85.3 78.9 69.5 54.2 60.2 54.5
    下载: 导出CSV
  • [1] 杨必胜, 梁福逊, 黄荣刚.三维激光扫描点云数据处理研究进展、挑战与趋势[J].测绘学报, 2017, 46(10): 1 509-1 516 doi:  10.11947/j.AGCS.2017.20170351

    Yang Bisheng, Liang Fuxun, Huang Ronggang. Progress, Challenges and Perspectives of 3D LiDAR Point Cloud Processing[J]. Acta Geodaetica et Cartographica Sinica, 2017, 46(10): 1 509-1 516 doi:  10.11947/j.AGCS.2017.20170351
    [2] 杨必胜, 董震.点云智能研究进展与趋势[J].测绘学报, 2019, 48(12): 1 575-1 585

    Yang Bisheng, Dong Zhen. Progress and Perspective of Point Cloud Intelligence[J]. Acta Geodaetica et Cartographica Sinica, 2019, 48(12): 1 575-1 585
    [3] Wang Y, Jiang T, Yu M, et al. Semantic-Based Building Extraction from LiDAR Point Clouds Using Contexts and Optimization in Complex Environment[J]. Sensors, 2020, 20(12): 3 386 doi:  10.3390/s20123386
    [4] Luo Z, Li J, Xiao Z, et al. Learning High-Level Features by Fusing Multi-view Representation of MLS Point Clouds for 3D Object Recognition in Road Environments[J]. ISPRS J Photogramm Remote Sens, 2019(150): 44-58 doi:  10.1016/j.isprsjprs.2019.01.024
    [5] 董震.大规模激光点云特征描述与地物目标三维提取[D].武汉: 武汉大学, 2018

    Dong Zhen. Feature Description and 3D Object Extraction from Large-scale Laser Scanning Point Clouds[D]. Wuhan: Wuhan University, 2018
    [6] 熊汉江, 郑先伟, 丁友丽, 等.基于2D-3D语义传递的室内三维点云模型语义分割[J].武汉大学学报·信息科学版, 2018, 43(12): 2 303-2 309 doi:  10.13203/j.whugis20180190

    Xiong Hanjiang, Zheng Xianwei, Ding Youli, et al. Semantic Segmentation of Indoor 3D Point Cloud Model Based on 2D-3D Semantic Transfer[J]. Geomatics and Information Science of Wuhan University, 2018, 43(12): 2 303-2 309 doi:  10.13203/j.whugis20180190
    [7] Tchapmi L P, Choy C B, Armeni I, et al. Segcloud: Semantic Segmentation of 3D Point Clouds[C].International Conference on 3D Vision, Qingdao, China, 2017
    [8] Liu Z, Tang H, Lin Y, et al. Point-Voxel CNN for Efficient 3D Deep Learning[C]. Conference and Workshop on Neural Information Processing Systems, Vancouver, Canada, 2019
    [9] Qi C, Su H, Mo K, et al.PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation[C]. IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017
    [10] Hu Q, Yang B, Xie L, et al. RandLA-Net: Efficient Semantic Segmentation of Large-scale Point Clouds[C]. IEEE Conference on Computer Vision and Pattern Recognition, Seattle WA, USA, 2020
    [11] Zhao C, Zhou W, Lu L, et al. Pooling Scores of Neighboring Points for Improved 3D Point Cloud Segmentation[C].International Conference on Image Processing, Taipei, China, 2019
    [12] Ye X, Li J, Huang H, et al. 3D Recurrent Neural Networks with Context Fusion for Point Cloud Semantic Segmentation[C]. European Conference on Computer Vision, Munich, Germany, 2018
    [13] Landrieu L, Simonovsky M. Large-scale Point Cloud Semantic Segmentation with Superpoint Graphs[C].IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018
    [14] Xiao Y, Chen Z, Lin Z, et al. Merge-Swap Optimization Framework for Supervoxel Generation from 3D Point Clouds[J].Remote Sens, 2020, 12(3):473 doi:  10.3390/rs12030473
    [15] Luo H, Chen C, Fang L, et al.Multiscale Regional Relation Feature Segmentation Network for Semantic Segmentation of Urban Scene Point Clouds[J].IEEE Trans Geosci Remote Sens, 2020, 58(12):8 301-8 315 doi:  10.1109/TGRS.2020.2985695
    [16] Li Z, Zhang J, Li G, et al. Graph Attention Neural Networks for Point Cloud Recognition[C]. IEEE International Conference on Multimedia and Expo, Shanghai, China, 2019
    [17] Andrew L, Awni Y, Andrew Y, et al. Rectifier Nonlinearities Improve Neural Network Acoustic Models[C]. International Conference on Machine Learning, Atlanta, GA, USA, 2013
    [18] Zhou H, Fang Z, Gao Y, et al. Feature Fusion Network Based on Attention Mechanism for 3D Semantic Segmentation of Point Clouds[J]. Pattern Recognition Letters, 2020(133): 327-333
    [19] Ma L, Li Y, Li J, et al. Multi-scale Point-Wise Convolutional Neural Networks for 3D Object Segmentation from LiDAR Point Clouds in Large-scale Environments[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 99: 1-16 doi:  10.1109/TITS.2019.2961060
    [20] Wang Y, Sun Y, Liu Z, et al. Dynamic Graph CNN for Learning on Point Clouds[J].ACM Transactions on Graphics, 2019, 38(5): 1-12
    [21] Sun Z, Xu Y, Hoegner L, et al. Classification of MLS Point Clouds in Urban Scenes Using Detrended Geometric Features from Supervoxel-Based Local Contexts[J]. ISPRS Ann Photogramm Remote Sens Spatial Inf Sci, 2018, 4(2): 271-278 doi:  10.5194/isprs-annals-IV-2-271-2018
    [22] Yang B, Dong Z, Liu Y, et al. Computing Multiple Aggregation Levels and Contextual Features for Road Facilities Recognition Using Mobile Laser Scanning Data[J]. ISPRS J Photogramm Remote Sens, 2017 (126): 180-194
    [23] Hackel T, Savinov N, Ladicky L, et al. Semantic3D.net: A New Large-scale Point Cloud Classification Benchmark[J]. ISPRS Ann Photogramm Remote Sens Spatial Inf Sci, 2017, 4(1): 91-98 doi:  10.5194/isprs-annals-IV-1-W1-91-2017
    [24] Armeni I, Sener O, Zamir A, et al. 3D Semantic Parsing of Large-scale Indoor Spaces[C]. IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016
    [25] Alexandre B. ConvPoint: Continuous Convolutions for Point Cloud Processing[J].Computers & ;Graphics, 2020(88): 24-34 doi:  10.1016/j.cag.2020.02.005
    [26] Wang L, Huang Y, Hou Y, et al. Graph Attention Convolution for Point Cloud Semantic Segmentation[C]. IEEE Conference on Computer Vision and Pattern Recognition, Long Beach, CA, USA, 2019
    [27] Huang Q, Wang W, Neumann U, et al. Recurrent Slice Network for 3D Segmentation of Point Clouds[C]. IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, 2018
  • [1] 邵振峰, 孙悦鸣, 席江波, 李岩.  智能优化学习的高空间分辨率遥感影像语义分割 . 武汉大学学报 ● 信息科学版, 2022, 47(2): 234-241. doi: 10.13203/j.whugis20200640
    [2] 杨军, 于茜子.  结合空洞卷积的FuseNet变体网络高分辨率遥感影像语义分割 . 武汉大学学报 ● 信息科学版, 2022, 47(7): 1071-1080. doi: 10.13203/j.whugis20200305
    [3] 方志祥, 倪雅倩, 黄守倩.  融合Markov与多类机器学习模型的个体出行位置预测模型 . 武汉大学学报 ● 信息科学版, 2021, 46(6): 799-806. doi: 10.13203/j.whugis20190404
    [4] 杨钰琪, 陈驰, 杨必胜, 胡平波, 崔扬.  基于UAV影像密集匹配点云多层次分割的建筑物层高变化检测 . 武汉大学学报 ● 信息科学版, 2021, 46(4): 489-496. doi: 10.13203/j.whugis20190030
    [5] 孙文潇, 王健, 梁周雁, 马伟丽, 陈喆.  法线特征约束的激光点云精确配准 . 武汉大学学报 ● 信息科学版, 2020, 45(7): 988-995. doi: 10.13203/j.whugis20180315
    [6] 张瑞菊, 周欣, 赵江洪, 曹闵.  一种古建筑点云数据的语义分割算法 . 武汉大学学报 ● 信息科学版, 2020, 45(5): 753-759. doi: 10.13203/j.whugis20180428
    [7] 文学东, 陈为民, 谢洪, 闫利.  一种融合多源特征的建筑物三维模型重建方法 . 武汉大学学报 ● 信息科学版, 2019, 44(5): 731-736, 764. doi: 10.13203/j.whugis20180320
    [8] 张蕊, 李广云, 王力, 李明磊, 周阳林.  车载LiDAR点云混合索引新方法 . 武汉大学学报 ● 信息科学版, 2018, 43(7): 993-999. doi: 10.13203/j.whugis20160441
    [9] 危双丰, 刘明蕾, 赵江洪, 黄帅.  利用点云检测室内导航元素的方法综述 . 武汉大学学报 ● 信息科学版, 2018, 43(12): 2003-2011. doi: 10.13203/j.whugis20180144
    [10] 卢昊, 庞勇, 徐光彩, 李增元.  机载激光雷达全波形数据与系统点云差异的定量分析 . 武汉大学学报 ● 信息科学版, 2015, 40(5): 588-593. doi: 10.13203/j.whugis20130443
    [11] 王云艳, 何 楚, 涂 峰, 陈 东, 廖明生.  特征选择双层svm的融合算法用于极化sar图像分类 . 武汉大学学报 ● 信息科学版, 2015, 40(9): 1157-1162. doi: 10.13203/j .whu g is20140351
    [12] 应 申, 毛政元, 李 霖, 许 光.  利用3D Voronoi图的兔子点云聚类分割 . 武汉大学学报 ● 信息科学版, 2013, 38(3): 358-361.
    [13] 王永波, 杨化超, 刘燕华, 牛晓楠.  线状特征约束下基于四元数描述的LiDAR点云配准方法 . 武汉大学学报 ● 信息科学版, 2013, 38(9): 1057-1062.
    [14] 康志忠, 王薇薇, 李珍.  多源数据融合的三维点云特征面分割和拟合一体化方法 . 武汉大学学报 ● 信息科学版, 2013, 38(11): 1317-1321.
    [15] 孙杰, 马洪超, 钟良.  利用LiDAR点云的真正射影像遮蔽检测 . 武汉大学学报 ● 信息科学版, 2011, 36(8): 948-951.
    [16] 郑莉, 张剑清, 罗跃军.  多视结构光点云的自动无缝拼接 . 武汉大学学报 ● 信息科学版, 2009, 34(2): 199-202.
    [17] 万幼川, 徐景中, 赖旭东, 张圣望.  基于多分辨率方向预测的LIDAR点云滤波方法 . 武汉大学学报 ● 信息科学版, 2007, 32(11): 1011-1015.
    [18] 赵银娣, 张良培, 李平湘.  一种纹理特征融合分类算法 . 武汉大学学报 ● 信息科学版, 2006, 31(3): 278-281.
    [19] 黄先锋, 陶闯, 江万寿, 龚健雅.  机载激光雷达点云数据的实时渲染 . 武汉大学学报 ● 信息科学版, 2005, 30(11): 975-978.
    [20] 项学泳, 李广云, 王力, 宗文鹏, 吕志鹏, 向奉卓.  使用局部几何特征与空洞邻域的点云语义分割 . 武汉大学学报 ● 信息科学版, 0, 0(0): 0-0. doi: 10.13203/j.whugis20200567
  • 加载中
图(6) / 表(3)
计量
  • 文章访问数:  1150
  • HTML全文浏览量:  352
  • PDF下载量:  166
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-03-15
  • 刊出日期:  2020-12-05

道路点云场景双层卷积语义分割

doi: 10.13203/j.whugis20200081
    基金项目:

    国家杰出青年科学基金 41725005

    国家自然科学基金 41531177

    中国博士后科学基金 2018M642913

    作者简介:

    蒋腾平,博士生,主要研究方向为三维点云语义识别和建模。jiangtp_3d@whu.edu.cn

    通讯作者: 杨必胜,博士,教授。bshyang@whu.edu.cn
  • 中图分类号: P208

摘要: 在大规模道路环境中,基于点的语义分割方法需要动态计算,而基于体素的方法权衡分辨率和性能导致损失大量信息。为了克服上述两类方法的缺陷,提出了一种通用的结合双层卷积和动态边缘卷积优化的网络架构来进行大型道路场景语义分割。该框架结合点与超体素两种不同域的卷积运算来避免冗余的计算和存储网络中的空间信息,并结合动态边缘卷积优化,使其端到端地一次性处理大规模点云。在不同场景的数据集上对该方法进行了测试与评估,结果表明,该方法能适应不同场景数据集并取得较高精度,优于现有方法。

English Abstract

蒋腾平, 杨必胜, 周雨舟, 朱润松, 胡宗田, 董震. 道路点云场景双层卷积语义分割[J]. 武汉大学学报 ● 信息科学版, 2020, 45(12): 1942-1948. doi: 10.13203/j.whugis20200081
引用本文: 蒋腾平, 杨必胜, 周雨舟, 朱润松, 胡宗田, 董震. 道路点云场景双层卷积语义分割[J]. 武汉大学学报 ● 信息科学版, 2020, 45(12): 1942-1948. doi: 10.13203/j.whugis20200081
JIANG Tengping, YANG Bisheng, ZHOU Yuzhou, ZHU Runsong, HU Zongtian, DONG Zhen. Bilevel Convolutional Neural Networks for 3D Semantic Segmentation Using Large-scale LiDAR Point Clouds in Complex Environments[J]. Geomatics and Information Science of Wuhan University, 2020, 45(12): 1942-1948. doi: 10.13203/j.whugis20200081
Citation: JIANG Tengping, YANG Bisheng, ZHOU Yuzhou, ZHU Runsong, HU Zongtian, DONG Zhen. Bilevel Convolutional Neural Networks for 3D Semantic Segmentation Using Large-scale LiDAR Point Clouds in Complex Environments[J]. Geomatics and Information Science of Wuhan University, 2020, 45(12): 1942-1948. doi: 10.13203/j.whugis20200081
  • 高效准确的语义分割是智能交通相关应用的重要前提。传统方式费时费力且代价昂贵,而三维扫描激光系统可以在大规模场景中有效采集高密度和精确的三维点云[1-2]。基于三维激光点云的场景理解在目标检测、三维重建、文物保护及无人驾驶等诸多应用扮演着核心角色。早期的研究主要集中在通过应用基于传统机器学习模型来解决点云分类问题[3]。这些方法通常从设计手工特征开始,如几何特征、辐射特征、拓扑特征和回波特征等[4],然后通过使用基于机器学习的分类器(包括支持向量机、随机森林、马尔可夫随机场和条件随机场等)进行点云分类[5]。但是,这些手工特征的计算需要特定的先验知识,并且从原始点云提取有效特征的能力有限。

    不同于传统的机器学习机制,深度学习方法对点云特征和分类器共同学习[6]。但是,由于非结构化点云与常规图像不同,很难直接应用卷积神经网络(convolutional neural network,CNN)来分析点云数据。因此,基于深度学习的方法主要在于数据的表达。基于多视图[4]和体素[7]是早前比较常用的两种方法。多视图方法从不同视图渲染一组图像来表示3D数据并作为CNN输入来学习深度特征。该方法将点的空间关系编码为2D图像,因此可以直接利用基于图像的CNN进行处理。但是,尚不清楚如何确定视图数量以及如何分布这些视图,使得覆盖3D形状的同时避免自遮挡。基于体素方法是将非结构化点云转换为可应用常规卷积网络的体素结构。如果分辨率较低,会丢失信息,因此需要高分辨率以保留数据的细节信息,但随着体素分辨率的提高,存储和计算成本也随之提高。研究人员在空间划分方法上进行了改进,比较经典的是基于八叉树体素划分,但其仍依赖于体素的边界细分而不是局部几何结构。Liu等[8]提出了PVCNN(point-voxel CNN)模型,它对点进行新的表示,以减少内存消耗,同时在体素中进行卷积,以减少规则数据访问并改善局部性,该模型在存储和计算方面都是有效的,但无法应用于城市级的点云场景。

    基于点的网络可直接在不规则点云上工作,但点云是无序的且没有结构,难以直接应用常规CNN。为此,PointNet[9]使用共享多层感知机(multi-layer perception,MLP)学习每点特征,并使用对称池化学习全局特征。近几年,PointNet衍生工作也不断涌现。尽管将共享MLP作为网络的基本单元能提高效率,但逐点提取特征难以获取点云局部以及上下文信息。为了提高局部几何特征的描述,一些方法通过汇总局部邻近点信息来学习每个点的特征;一种高效且轻量级的网络(RandLA-Net)[10]利用随机点采样在存储和计算方面实现了显著的效率,并提出了局部特征提取模块以获取几何特征。为了进一步提高分割精度,一部分工作集成注意力机制[11]优化点云语义分割结果或者采用递归神经网络[12]从点云中更好地获取上下文特征,但在聚合局部邻域特征与全局结构特征时容易失去丰富的几何特征和密度分布。为了提高点云几何结构的表达,一些模型[13]先将点云几何均一分割为简单的超点,并使用属性有向图(超点图)获取结构和上下文信息,然后进行上下文分割。

    总体来说,传统机器学习方法在复杂场景下效率低且精度有限。深度学习模型不管对点云进行何种表达,往往都通过聚合每个点的邻近特征来提取逐点特征,通过最近邻域搜索建立索引来解决相邻点不会连续存储的问题。这种时间换空间的方式增加了内存成本,邻域随机的相对位置也会增加动态内核计算。综上考虑,本文结合基于体素和点两个方法的优势,先将点云表达为超体素来降低稀疏性,以减少内存占用;然后采用一种新颖卷积模型进行端到端学习[2]

    • 基于三维激光点云的语义分割网络模型,主要包含3个模块:能量驱动的超体素生成与表示,基于点-超体素双层卷积网络的特征提取及融合,动态边缘特征提取优化。

    • 传统体素化严重依赖点之间的固有相邻关系,超体素提供紧凑且在感知上有意义的表示形式,这对后续的点云目标识别大有裨益。作为点云分割和识别的处理单元,超体素最重要的属性就是边界保持,对于没有边界或特征的区域显示规则和紧凑的几何形状,从而生成更简单的邻接图结构。为了降低点云的复杂性,超体素大小适应点云的局部内容,即简单区域的超体素尺寸较大,而复杂区域的超体素尺寸相对较小。

      为了改善分布不均并有效降低计算复杂度,本文采用能量驱动方式[14]将具有相似特征的相邻点合并成近似相等分辨率的齐次超体素,更好地保留对象边界。该能量函数结合超体素的两个重要属性:①点的平面性和法线相似性;②紧凑的几何形状表达。图 1显示了室外场景的超体素生成结果示例。超体素将作为体素分支处理单元,每个超体素内的点都被认为具有相同语义标签。在这种情况下,超体素不仅分布均匀,而且最近邻域基本覆盖城市场景中足够大的区域,提取有意义的局部上下文信息进行语义分割。基于超体素的场景重组改善了原始输入端,但仍然存在棘手的表达问题。特别是难以清晰地描述每个超体素属性,同一超体素对象中的位置、形状和点数不同,使得特性上仍有很大差异。为了解决该问题,本文采用文献[15]提出的直接面向超体素的稀疏自动编码(sparse auto encoder,SAE),以数据驱动方式压缩和编码每个超体素的嵌入表示。具体地,基于相对熵有效压缩超体素的重要特征,通过最大池化合成全局特征并嵌入超体素的空间位置以增强空间关系表达。

      图  1  超体素生成结果

      Figure 1.  Results of Supervoxel Segmentation

    • 本文网络由两部分组成(图 2),一部分对§1.1得到的低分辨率超体素进行卷积处理,提取粗粒度邻域信息;另一部分补充了基于点的细粒度特征提取,由于不汇总邻域信息,因此可以提供较高分辨率。本文网络关键部分是聚集邻近信息以提取局部特征,在超体素域中执行特征聚合,从而以较高效率实现,大致网络架构见图 3

      图  2  本文模型架构示意图

      Figure 2.  Architecture Illustration of the Proposed Model

      图  3  基于超体素与注意力机制相结合的图卷积网络示意图

      Figure 3.  Illustration of Graph Attention Neural Network Based on Supervoxel

      局部结构特征对于点云语义分割任务相当关键,但自动提取邻域范围内关联区域的局部结构特征仍存在一定挑战。这里采用一种结合注意力机制的图卷积网络[16],它是一个即插即用模块,可以轻松移植到其他网络模型。首先构造一个邻接图G = {VE}来建模超体素之间的相邻关系,以促进相关区域的形成,超体素中心被视为顶点V = {vi},并在每对相邻超体素之间建立边缘E = {eij}。输入特征向量被定义为节点的初始化状态,并表示为f={f1, f2fn}。通过在每个点周围建立一个简单的局部连接关系,以确定特征转移方向,而不包含其他信息。图注意力机制模块通过计算节点之间特征空间中的关联度为不同节点指定不同权重。

      具体来说,每个节点的特征向量${\mathit{\boldsymbol{f}}_l} = \left\{ {{f_1}, {f_2} \ldots {f_k}, {f_{k + 1}}} \right\}$被馈送到MLP提取新特征表示。该过程不需要建立局部坐标系提取点对之间的特征,通过注意力机制描述特征空间中点与相邻点的关联度,并独立提取每个点的特征。连接聚合特征和状态向量后,多次更新每个图注意力机制模块节点的状态,节点的特征表示捕获其邻域内的结构信息。所有邻域节点的特征都参与中心节点的特征计算,从而最大程度地解决特征信息丢失问题,并且聚合点云语义分割中最有用的结构特征。在图卷积之后应用非线性激活函数[17]进一步聚合特征。

      在后续过程中,需要将信息与基于点的特征融合,因此将基于超体素的特征转换回点云域。通过将每个超体素的特征分配给超体素内的所有点来实现超体素到点的映射,同一超体素中的点始终共享相同特征。为了确保映射到每个点的特征是不同的,利用三线性插值将超体素转换为点。本文的超体素生成和去体素化是层次化步骤,互不影响,可以端到端地优化整个基于超体素的特征聚合。

      基于低分辨率超体素的特征聚合以粗粒度方式融合邻域信息,但难以有效提取每个点的细粒度特征,所以还需进行高分辨率要素转换来实现对每个点的细粒度特征提取。本文采用PointNet直接对单个点进行操作,简单地应用MLP有效直接提取单点特征。这为每个点输出了独特和具有区别性的特征,所获得的高分辨率单点信息对基于超体素的粗粒度信息提取提供了有效的补充。基于点特征和汇总的局部信息,两个针对点云不同表达方式的网络可以有效融合。特征融合主要分为两个组件[18],首先由输入特征提取模块生成的逐点特征与超体素空间获取的局部特征融合,弥补最大池操作造成的损失;然后由卷积层对n×1 024的局部特征进行卷积,并与n×64的逐点特征融合,然后馈送到卷积层进一步提取特征信息,并应用归一化函数以生成权重图。将第一次融合结果与逐点特征融合,产生细粒度语义特征以改进分类的准确性;逐点特征同步由卷积层更新,与权重图相乘后添加到乘法结果产生新特征。与直接串联方式相比,本文方法将一些成熟的基于点网络直接嵌入,无需修改现有的配置,进一步提高了网络的灵活性。

    • 尽管嵌入基于点和超体素双层融合框架可以获取多层次点云特征,但其并未考虑点与其邻域范围之间的边缘特征。受现有工作启发[19],基于K最近邻的自适应图卷积神经网络可以进一步提取点邻域内高层次局部边缘特征。本文采用一种动态图边缘卷积描述符[20]捕获局部几何边缘结构。首先利用一种U形采样层次架构在全局和局部范围内获取高层次特征,将点云采样为各种分辨率,将特征从采样点云传播到相对密集的点云;然后构造一个局部邻域图,在连接的边上进行基于点特征的卷积计算。与传统图卷积神经网络相比,它是动态更新的,而不是固定在特征提取层之后。具体而言,点的K个近邻在模型的两个相邻层之间动态变化,并据此计算嵌入顺序。通过将动态图边缘卷积添加到本文模型中,不仅考虑了几何信息,而且还考虑了某个点与其相邻点之间的边缘信息特征,以捕获局部区域中的更多描述性特征。

    • 本文在城市环境[21]和京承高速公路[22]两个大规模室外点云场景上进行测试。为了验证本文模型的鲁棒性,还在室外激光点云Semantic3D[23]和室内RGBD点云S3DIS[24]两个基准数据集进行测试。在进行测试之前,首先对输入点云进行下采样,然后对其进行旋转和抖动处理,以增强本文网络的鲁棒性和适用性。

    • 对于自身采集的两个数据集,本文利用精确度($P = [{\rm{TP}}/\left( {{\rm{TP}} + {\rm{FP}}} \right)] \times 100{\rm{\% }}$)和召回率($R = $[TP/(TP+FN)]×100%)对语义分割结果进行质量评价,其中,TP、FP和FN分别为语义标注正确的目标个数、错误标注的目标个数和漏标注的目标个数。召回率越高,说明模型对正样本的标注性能越好;精确度越高,说明模型对负样本的区分能力越强。

      对另外两个基准数据集根据自身评估矩阵IoU(intersection over union,衡量预测值和真实值之间的重叠度),多次实验对本文模型的性能进行了评估,其计算公式如下:

      $$ {\rm{IoU}} = \frac{{{c_{ii}}}}{{{c_{ii}} + \mathop \sum \limits_{j \ne i} {c_{ij}} + \mathop \sum \limits_{k \ne i} {c_{ki}}}} $$ (1)

      其中,$c \in {R^{N \times N}}$是混淆矩阵;cij是真实类别i预测为类别j的点数。

    • 图 4图 5分别显示了本文方法在城市环境和高速公路的实验结果。结果表明,尽管城市/高速道路场景与小规模室内场景有很大不同,但依旧有效分割了许多道路对象(例如建筑物和杆状物),并且完全提取了路面。这说明本文方法能够为大规模三维点云场景语义分割提供有希望的解决方案。表 1列出了本文方法对这两个数据集精确度和召回率的计算结果。

      图  4  城市环境语义分割结果

      Figure 4.  Result of Semantic Segmentation on Urban Area

      图  5  高速公路环境语义分割结果

      Figure 5.  Result of Semantic Segmentation on Highway Environment

      表 1  城市/高速场景数据精度对比/%

      Table 1.  Comparison of Accuracies of the Proposed Method and Reference[22] on Urban and Highway Datasets/%

      方法 城市场景 高速场景
      精确度 召回率 精确度 召回率
      本文方法 94.9 93.8 91.1 91.5
      文献[22] 90.6 91.2

      在京承高速公路场景下,将本文方法与基于手工特征方法[22]进行了比较。基于手工特征方法是道路场景多目标语义识别的经典方法,它提出了一种融合多层次和上下文特征的道路设施语义识别框架,在京承高速公路场景的精确度和召回率分别是90.6%和91.2%。相比之下,本文通过端到端的点云特征学习方式,精确度和召回率都有所提升,整体精度提升约1%。

      为了更好地评估本文方法的鲁棒性,对室外Semantic3D点云数据集和室内S3DIS点云数据集进行测试,图 6为测试结果示例。表 2表 3分别显示了本文方法在这两个数据集的结果,同时还列出了与基于点[25]、体素[7]和文献[26]、文献[27]两种有代表性的深度学习方法的比较结果。

      图  6  Semantic3D和S3SIS基准数据集语义分割结果

      Figure 6.  Result of Semantic Segmentation on Semantic3D and S3SIS Datasets

      表 2  Semantic3D数据精度比较/%

      Table 2.  Comparison of Accuracies of Different Methods on Semantic3D Dataset/%

      方法 mIoU 草坪 地面 树木 灌木 建筑 花坛 设施
      文献[25] 67.5 86.8 80.9 88.1 50.6 93.4 32.8 41.3 69.5
      文献[7] 61.3 83.9 66.0 86.0 40.5 91.1 30.9 27.5 64.3
      文献[26] 70.8 86.4 77.7 88.5 60.6 94.2 37.3 43.5 77.8
      本文方法 73.2 97.4 92.6 87.9 44.0 93.2 34.7 63.5 79.7

      表 3  S3DIS数据精度比较/%

      Table 3.  Compare of Accuracies of Different Methods on S3DIS Dataset/%

      方法 mIoU 屋顶 地板 墙面 窗户 椅子 桌子 书柜 沙发 面板 其他
      文献[25] 49.7 90.3 92.1 67.9 44.7 24.2 52.3 51.2 47.4 58.1 39.0 6.9 30.0 41.9
      文献[7] 52.5 90.6 90.1 74.2 31.3 29.0 46.6 61.9 54.9 56.6 45.4 16.6 34.9 46.8
      文献[27] 56.5 92.5 92.8 78.6 32.8 34.4 51.6 68.1 59.7 60.1 50.2 16.4 44.9 52.0
      本文方法 60.2 92.2 96.9 82.6 46.5 34.6 51.7 40.1 85.3 78.9 69.5 54.2 60.2 54.5

      文献[25]提出了泛化离散卷积神经网络,用连续核替换离散核来处理点云。文献[7]构建了基于体素的端到端网络架构,融合神经网络、三线性插值及全连接条件随机场的优点,明确了全局一致性的约束,有效提高了三维点云细粒度语义标记的性能。室外场景的基准算法[26]在点云处理过程中引入注意力机制缓解图卷积各向同性问题,避免特征污染;并将离散卷积核设定为相对位置和特征差分的函数,利用Softmax进行归一化。室内场景的基准算法[27]针对无序和非结构化点云构建切片池化层,将无序点云特征映射为有序特征向量,以计算复杂度相对较小的循环卷积网络,提取局部相关性特征。由表 2表 3不难发现,在室外基准数据集上,本文方法与基于点的深度学习方法[25]相比,mIoU提升了约5.7%;跟基于体素的深度学习方法[7]相比,mIoU提升了11.9%;跟基准方法一[26]相比,mIoU提升2.4%。对于室内基准数据集,相比基于点[25]、体素[7]和基准方法二[27],本文方法在大多数类别上均获得了最优结果。由于事先采用超体素聚类算法保留细节信息,特别在小物体的语义分割性能大幅提升,如桌子、椅子等,提升了10%~20%,甚至30%。

      常规基于点的方法中,采集所有点的邻域至少需要Okn)个随机内存访问(k为邻域数量);本文只需要遍历一次即可将点分散到对应超体素网格,时间复杂度是On),从这个角度来看,本文方法相比基于点的方法效率高出k倍。此外,由于卷积处理是在超体素域中完成的,因此不需要K邻近算法计算和动态内核计算。随分辨率三次方增加的内存/计算渐进复杂度是制约基于体素深度学习方法效率的重要因素。体素作为一种离散化表征形式,其不可避免的是落在同一体素块的两个点将难以区分,导致近50%的信息丢失。本文将点和超体素两种不同表达融合,以达到效果和效率的均衡。

    • 针对现有方法在大规模点云场景语义分割的计算复杂性高和鲁棒性不足等问题,本文首先生成超体素及基于SAE嵌入表示,然后协同基于点和超体素进行卷积处理,最后通过动态边缘图卷积学习点与相邻点之间的边缘特征。本文模型能兼顾点和超体素两种点云表达形式的性能和效率。通过相关指标比较表明,在4个不同场景(两个真实室外场景,两个基准数据集)中,本文框架的语义分割精度优于现有前沿方法(基于手工特征的机器学习算法和4种具有代表性的深度学习方法)。总体而言,本文提出的框架在大型点云场景下可以更有效地实现语义分割。

参考文献 (27)

目录

    /

    返回文章
    返回