留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

面向多源数据地物提取的遥感知识感知与多尺度特征融合网络

龚健雅 张展 贾浩巍 周桓 赵元昕 熊汉江

龚健雅, 张展, 贾浩巍, 周桓, 赵元昕, 熊汉江. 面向多源数据地物提取的遥感知识感知与多尺度特征融合网络[J]. 武汉大学学报 ( 信息科学版), 2022, 47(10): 1546-1554. doi: 10.13203/j.whugis20220580
引用本文: 龚健雅, 张展, 贾浩巍, 周桓, 赵元昕, 熊汉江. 面向多源数据地物提取的遥感知识感知与多尺度特征融合网络[J]. 武汉大学学报 ( 信息科学版), 2022, 47(10): 1546-1554. doi: 10.13203/j.whugis20220580
GONG Jianya, ZHANG Zhan, JIA Haowei, ZHOU Huan, ZHAO Yuanxin, XIONG Hanjiang. Multi-source Data Ground Object Extraction Based on Knowledge-Aware and Multi-scale Feature Fusion Network[J]. Geomatics and Information Science of Wuhan University, 2022, 47(10): 1546-1554. doi: 10.13203/j.whugis20220580
Citation: GONG Jianya, ZHANG Zhan, JIA Haowei, ZHOU Huan, ZHAO Yuanxin, XIONG Hanjiang. Multi-source Data Ground Object Extraction Based on Knowledge-Aware and Multi-scale Feature Fusion Network[J]. Geomatics and Information Science of Wuhan University, 2022, 47(10): 1546-1554. doi: 10.13203/j.whugis20220580

面向多源数据地物提取的遥感知识感知与多尺度特征融合网络

doi: 10.13203/j.whugis20220580
基金项目: 

国家自然科学基金 42090011

国家自然科学基金 41971402

详细信息
    作者简介:

    龚健雅,博士,教授,中国科学院院士,长期从事地理信息理论和摄影测量与遥感基础研究。gongjy@whu.edu.cn

    通讯作者: 张展,博士生。zhangzhanstep@whu.edu.cn
  • 中图分类号: P237

Multi-source Data Ground Object Extraction Based on Knowledge-Aware and Multi-scale Feature Fusion Network

Funds: 

The National Natural Science Foundation of China 42090011

The National Natural Science Foundation of China 41971402

More Information
    Author Bio:

    GONG Jianya, PhD, professor, Academician of Chinese Academy of Sciences, specializes in geo-informatics and photogrammetry. E-mail: gongjy@whu.edu.cn

    Corresponding author: ZHANG Zhan, PhD candidate. E-mail: zhangzhanstep@whu.edu.cn
  • 摘要: 遥感地物自动提取是遥感智能解译中的关键问题,对空间信息的理解和知识发现具有重要意义。近年来,使用全卷积神经网络(fully convolutional networks, FCN)从高分影像和三维激光雷达(light detection and ranging, LiDAR)数据中提取地物信息因取得了较好效果而受到广泛关注。现有FCN网络在地物提取精度和效率等方面仍存在不足,由此提出一种基于多源数据的遥感知识感知与多尺度特征融合网络(knowledge-aware and multi-scale feature fusion network, KMFNet)。在网络编码器端融入遥感知识感知模块(knowledge-aware module, KAM),高效挖掘多源遥感数据中的遥感知识信息;在网络编码器和解码器之间添加了串并联混合空洞卷积模块(series-parallel hybrid convolution module, SPHCM),提高网络对地物多尺度特征的学习能力;在解码器端使用了渐进式多层特征融合策略,细化最终的地物分类结果。基于公开的ISPRS语义分割标准数据集,在LuoJiaNET遥感智能解译开源深度学习框架上将KMFNet与当前主流方法进行了对比。实验结果表明,所提方法提取出的地物更为完整,细节更加精确。
  • 图  1  遥感知识感知与多尺度特征融合网络

    Figure  1.  Structure of KMFNet

    图  2  遥感知识感知模块

    Figure  2.  Knowledge-Aware Module

    图  3  遥感知识感知卷积运算示意图

    Figure  3.  Calculation Process of Knowledge-Aware Convolution

    图  4  串并联混合空洞卷积模块

    Figure  4.  Series-Parallel Hybrid Convolution Module

    图  5  不同方法地物提取结果

    Figure  5.  Results of Ground Object Extraction Using Different Methods

    表  1  数据集属性与训练分配

    Table  1.   Basic Attribute and Training Assignment of Datasets

    数据集 分辨率
    /m
    图块尺寸
    /像素
    训练集
    /张
    验证集
    /张
    测试集
    /张
    Vaihingen 0.09 512×512 1 200 150 350
    Potsdam 0.05 512×512 6 000 800 2 000
    下载: 导出CSV

    表  2  KMFNet在不同数据集上的分类精度/%

    Table  2.   Classification Accuracy of KMFNet in Different Datasets /%

    数据集 不透水面 建筑 低矮植被 树木 车辆 平均
    IoU OA IoU OA IoU OA IoU OA IoU OA IoU OA
    Vaihingen 79.21 86.21 85.32 90.27 67.35 86.36 76.54 88.44 55.78 77.18 72.84 85.69
    Potsdam 78.05 85.32 86.76 91.71 68.12 86.44 74.92 87.26 60.02 82.63 73.69 86.67
    下载: 导出CSV

    表  3  本文所提模块在不同数据集上的消融实验结果/%

    Table  3.   Ablation Study of the Proposed Modules in Different Datasets /%

    模型 Vaihingen数据集 Potsdam数据集
    mIoU OA mIoU OA
    Baseline 67.32 80.11 67.45 83.21
    Baseline+KAM 70.43 82.87 69.57 84.22
    Baseline+KAM+SPHCM 72.84 85.69 73.69 86.67
    下载: 导出CSV

    表  4  不同地物自动提取方法在不同数据集上的分类精度/%

    Table  4.   Classification Accuracy of Different Methods in Different Datasets /%

    方法 Vaihingen数据集 Potsdam数据集
    不透水面 建筑 低矮植被 树木 车辆 总体精度 不透水面 建筑 低矮植被 树木 车辆 总体精度
    GRRNet 84.23 90.11 82.56 85.32 75.26 83.50 85.56 89.21 83.21 86.01 81.77 85.15
    V-FuseNet 82.61 86.88 80.2 83.11 72.48 81.06 84.01 87.33 82.64 83.06 79.02 83.21
    DLR 81.24 88.25 84.27 87.02 78.01 83.76 83.65 89.69 84.23 85.23 81.79 84.92
    Res-U-Net 81.99 86.31 81.21 84.94 73.92 81.67 81.22 85.98 80.26 83.54 79.67 82.13
    KMFNet 86.21 90.27 86.36 88.44 77.18 85.69 85.32 91.71 86.44 87.26 82.63 86.67
    下载: 导出CSV
  • [1] 龚健雅. 人工智能时代测绘遥感技术的发展机遇与挑战[J]. 武汉大学学报·信息科学版, 2018, 43(12): 1788- 1796 doi:  10.13203/j.whugis20180082

    Gong Jianya. Chances and Challenges for Development of Surveying and Remote Sensing in the Age of Artificial Intelligence[J]. Geomatics and Information Science of Wuhan University, 2018, 43(12): 1788- 1796 doi:  10.13203/j.whugis20180082
    [2] 李彦胜, 张永军. 耦合知识图谱和深度学习的新一代遥感影像解译范式[J]. 武汉大学学报·信息科学版, 2022, 47(8): 1176- 1190 doi:  10.13203/j.whugis20210652

    Li Yansheng, Zhang Yongjun. A New Paradigm of Remote Sensing Image Interpretation by Coupling Knowledge Graph and Deep Learning[J]. Geoma-tics and Information Science of Wuhan University, 2022, 47(8): 1176- 1190 doi:  10.13203/j.whugis20210652
    [3] 徐恩恩, 郭颖, 陈尔学, 等. 基于无人机LiDAR和高空间分辨率卫星遥感数据的区域森林郁闭度估测模型[J]. 武汉大学学报·信息科学版, 2022, 47(8): 1298- 1308 doi:  10.13203/j.whugis20210001

    Xu Enen, Guo Ying, Chen Erxue, et al. An Estimation Model for Regional Forest Canopy Closure Combined with UAV LiDAR and High Spatial Resolution Satellite Remote Sensing Data[J]. Geomatics and Information Science of Wuhan University, 2022, 47(8): 1298- 1308 doi:  10.13203/j.whugis20210001
    [4] 张成龙, 李振洪, 张双成, 等. 综合遥感解译2022年Mw 6.7青海门源地震地表破裂带[J]. 武汉大学学报·信息科学版, 2022, 47(8): 1257- 1270 doi:  10.13203/j.whugis20220243

    Zhang Chenglong, Li Zhenhong, Zhang Shuang-cheng, et al. Surface Ruptures of the 2022 Mw 6.7 Menyuan Earthquake Revealed by Integrated Remote Sensing[J]. Geomatics and Information Science of Wuhan University, 2022, 47(8): 1257- 1270 doi:  10.13203/j.whugis20220243
    [5] Su T F, Li H Y, Zhang S W, et al. Image Segmentation Using Mean Shift for Extracting Croplands from High-Resolution Remote Sensing Imagery[J]. Remote Sensing Letters, 2015, 6(12): 952- 961 doi:  10.1080/2150704X.2015.1093188
    [6] Kotaridis I, Lazaridou M. Remote Sensing Image Segmentation Advances: A Meta-Analysis[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2021, 173: 309- 322 doi:  10.1016/j.isprsjprs.2021.01.020
    [7] Du S J, Zhang Y S, Zou Z R, et al. Automatic Building Extraction from LiDAR Data Fusion of Point and Grid-Based Features[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2017, 130: 294- 307 doi:  10.1016/j.isprsjprs.2017.06.005
    [8] Zhang J X. Multi-Source Remote Sensing Data Fusion: Status and Trends[J]. International Journal of Image and Data Fusion, 2010, 1(1): 5- 24 doi:  10.1080/19479830903561035
    [9] Fu G, Liu C J, Zhou R, et al. Classification for High Resolution Remote Sensing Imagery Using a Fully Convolutional Network[J]. Remote Sensing, 2017, 9(5): 498 doi:  10.3390/rs9050498
    [10] Sun W W, Wang R S. Fully Convolutional Networks for Semantic Segmentation of very High Resolution Remotely Sensed Images Combined with DSM[J]. IEEE Geoscience and Remote Sensing Letters, 2018, 15(3): 474- 478 doi:  10.1109/LGRS.2018.2795531
    [11] Audebert N, Le Saux B, Lefèvre S. Beyond RGB: Very High Resolution Urban Remote Sensing with Multimodal Deep Networks[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 140: 20- 32 doi:  10.1016/j.isprsjprs.2017.11.011
    [12] Marmanis D, Schindler K, Wegner J D, et al. Classification with an Edge: Improving Semantic Image Segmentation with Boundary Detection[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 135: 158- 172 doi:  10.1016/j.isprsjprs.2017.11.009
    [13] Pan X R, Gao L R, Marinoni A, et al. Semantic Labeling of High Resolution Aerial Imagery and LiDAR Data with Fine Segmentation Network[J]. Remote Sensing, 2018, 10(5): 743 doi:  10.3390/rs10050743
    [14] Zhao H S, Shi J P, Qi X J, et al. Pyramid Scene Parsing Network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, HI, USA, 2017
    [15] Liu Y C, Fan B, Wang L F, et al. Semantic La-beling in very High Resolution Images via a Self-Cascaded Convolutional Neural Network[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 145: 78- 95 https://www.sciencedirect.com/science/article/pii/S0924271617303854
    [16] Li Y H, Chen Y T, Wang N Y, et al. Scale-Aware Trident Networks for Object Detection[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, South Korea, 2019
    [17] He K M, Zhang X Y, Ren S Q, et al. Deep Resi-dual Learning for Image Recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 2016
    [18] Yu F, Koltun V. Multi-Scale Context Aggregation by Dilated Convolutions[EB/OL]. [2015-04-12] https://arxiv.org/abs/1511.07122
    [19] Shorten C, Khoshgoftaar T M. A Survey on Image Data Augmentation for Deep Learning[J]. Journal of Big Data, 2019, 6(1): 1- 48
    [20] Huang J F, Zhang X C, Xin Q C, et al. Automatic Building Extraction from High-Resolution Aerial Images and LiDAR Data Using Gated Residual Refinement Network[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2019, 151: 91- 105
    [21] Xu Y Y, Wu L, Xie Z, et al. Building Extraction in very High Resolution Remote Sensing Imagery Using Deep Learning and Guided Filters[J]. Remote Sensing, 2018, 10: 144 doi:  10.1007/978-3-319-95168-3_22
  • [1] 杨军, 于茜子.  结合空洞卷积的FuseNet变体网络高分辨率遥感影像语义分割 . 武汉大学学报 ( 信息科学版), 2022, 47(7): 1071-1080. doi: 10.13203/j.whugis20200305
    [2] 郭从洲, 李可, 李贺, 童晓冲, 王习文.  遥感图像质量等级分类的深度卷积神经网络方法 . 武汉大学学报 ( 信息科学版), 2022, 47(8): 1279-1286. doi: 10.13203/j.whugis20200292
    [3] 李星华, 白学辰, 李正军, 左芝勇.  面向高分影像建筑物提取的多层次特征融合网络 . 武汉大学学报 ( 信息科学版), 2022, 47(8): 1236-1244. doi: 10.13203/j.whugis20210506
    [4] 张春森, 胡艳, 于振, 崔卫红, 吴蓉蓉.  全连接条件随机场高分辨率遥感影像面状地物交互提取 . 武汉大学学报 ( 信息科学版), 2020, 45(10): 1594-1601. doi: 10.13203/j.whugis20190137
    [5] 门计林, 刘越岩, 张斌, 周繁.  多结构卷积神经网络特征级联的高分影像土地利用分类 . 武汉大学学报 ( 信息科学版), 2019, 44(12): 1841-1848. doi: 10.13203/j.whugis20180137
    [6] 陈一祥, 秦昆, 胡忠文, 曾诚.  一种高分影像建筑区分块表示与合并提取方法 . 武汉大学学报 ( 信息科学版), 2019, 44(6): 908-916. doi: 10.13203/j.whugis20170293
    [7] 葛芸, 江顺亮, 叶发茂, 许庆勇, 唐祎玲.  基于ImageNet预训练卷积神经网络的遥感图像检索 . 武汉大学学报 ( 信息科学版), 2018, 43(1): 67-73. doi: 10.13203/j.whugis20150498
    [8] 曹建农.  高分影像信息提取的特征结构化多尺度分析建模方法研究 . 武汉大学学报 ( 信息科学版), 2018, 43(12): 1943-1953. doi: 10.13203/j.whugis20180253
    [9] 林恒, 龚威, 史硕.  利用等边长正交格网进行层次聚合聚类 . 武汉大学学报 ( 信息科学版), 2018, 43(5): 786-791. doi: 10.13203/j.whugis20150668
    [10] 周亚男, 骆剑承, 程熙, 沈占锋.  多特征融入的自适应遥感影像多尺度分割 . 武汉大学学报 ( 信息科学版), 2013, 38(1): 19-22.
    [11] 王贺, 张路, 徐金燕, 廖明生.  面向城市地物分类的L波段SAR影像极化特征提取与分析 . 武汉大学学报 ( 信息科学版), 2012, 37(9): 1068-1072.
    [12] 闫利, 赵展, 聂倩, 姚尧.  利用规则进行高分辨率遥感影像地物提取 . 武汉大学学报 ( 信息科学版), 2012, 37(6): 636-639.
    [13] 施蓓琦, 刘春, 姚连璧, 陈能.  视觉皮层振荡神经网络在遥感影像分割中的应用 . 武汉大学学报 ( 信息科学版), 2011, 36(12): 1442-1446.
    [14] 张倩, 黄昕, 张良培.  多尺度同质区域提取的高分辨率遥感影像分类研究 . 武汉大学学报 ( 信息科学版), 2011, 36(1): 117-121.
    [15] 沈占锋, 骆剑承, 胡晓东, 孙卫刚.  高分辨率遥感影像多尺度均值漂移分割算法研究 . 武汉大学学报 ( 信息科学版), 2010, 35(3): 313-317.
    [16] 吴柯, 牛瑞卿, 李平湘, 张良培.  基于模糊ARTMAP神经网络模型的遥感影像亚像元定位 . 武汉大学学报 ( 信息科学版), 2009, 34(3): 297-300.
    [17] 王爱萍, 王树根, 吴会征.  利用分层聚合进行高分辨率遥感影像多尺度分割 . 武汉大学学报 ( 信息科学版), 2009, 34(9): 1055-1058.
    [18] 吕恒, 李新国, 曹凯.  基于BP神经网络模型的太湖悬浮物浓度遥感定量提取研究 . 武汉大学学报 ( 信息科学版), 2006, 31(8): 683-686.
    [19] 汪闽, 骆剑承, 明冬萍.  高分辨率遥感影像上基于形状特征的船舶提取 . 武汉大学学报 ( 信息科学版), 2005, 30(8): 685-688.
    [20] 高贤君, 冉树浩, 张广斌, 杨元维.  基于多特征融合与对象边界联合约束网络的建筑物提取 . 武汉大学学报 ( 信息科学版), 0, 0(0): -. doi: 10.13203/j.whugis20210520
  • 加载中
图(5) / 表(4)
计量
  • 文章访问数:  379
  • HTML全文浏览量:  138
  • PDF下载量:  129
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-09-08
  • 刊出日期:  2022-10-05

面向多源数据地物提取的遥感知识感知与多尺度特征融合网络

doi: 10.13203/j.whugis20220580
    基金项目:

    国家自然科学基金 42090011

    国家自然科学基金 41971402

    作者简介:

    龚健雅,博士,教授,中国科学院院士,长期从事地理信息理论和摄影测量与遥感基础研究。gongjy@whu.edu.cn

    通讯作者: 张展,博士生。zhangzhanstep@whu.edu.cn
  • 中图分类号: P237

摘要: 遥感地物自动提取是遥感智能解译中的关键问题,对空间信息的理解和知识发现具有重要意义。近年来,使用全卷积神经网络(fully convolutional networks, FCN)从高分影像和三维激光雷达(light detection and ranging, LiDAR)数据中提取地物信息因取得了较好效果而受到广泛关注。现有FCN网络在地物提取精度和效率等方面仍存在不足,由此提出一种基于多源数据的遥感知识感知与多尺度特征融合网络(knowledge-aware and multi-scale feature fusion network, KMFNet)。在网络编码器端融入遥感知识感知模块(knowledge-aware module, KAM),高效挖掘多源遥感数据中的遥感知识信息;在网络编码器和解码器之间添加了串并联混合空洞卷积模块(series-parallel hybrid convolution module, SPHCM),提高网络对地物多尺度特征的学习能力;在解码器端使用了渐进式多层特征融合策略,细化最终的地物分类结果。基于公开的ISPRS语义分割标准数据集,在LuoJiaNET遥感智能解译开源深度学习框架上将KMFNet与当前主流方法进行了对比。实验结果表明,所提方法提取出的地物更为完整,细节更加精确。

English Abstract

龚健雅, 张展, 贾浩巍, 周桓, 赵元昕, 熊汉江. 面向多源数据地物提取的遥感知识感知与多尺度特征融合网络[J]. 武汉大学学报 ( 信息科学版), 2022, 47(10): 1546-1554. doi: 10.13203/j.whugis20220580
引用本文: 龚健雅, 张展, 贾浩巍, 周桓, 赵元昕, 熊汉江. 面向多源数据地物提取的遥感知识感知与多尺度特征融合网络[J]. 武汉大学学报 ( 信息科学版), 2022, 47(10): 1546-1554. doi: 10.13203/j.whugis20220580
GONG Jianya, ZHANG Zhan, JIA Haowei, ZHOU Huan, ZHAO Yuanxin, XIONG Hanjiang. Multi-source Data Ground Object Extraction Based on Knowledge-Aware and Multi-scale Feature Fusion Network[J]. Geomatics and Information Science of Wuhan University, 2022, 47(10): 1546-1554. doi: 10.13203/j.whugis20220580
Citation: GONG Jianya, ZHANG Zhan, JIA Haowei, ZHOU Huan, ZHAO Yuanxin, XIONG Hanjiang. Multi-source Data Ground Object Extraction Based on Knowledge-Aware and Multi-scale Feature Fusion Network[J]. Geomatics and Information Science of Wuhan University, 2022, 47(10): 1546-1554. doi: 10.13203/j.whugis20220580
  • 遥感影像的地物自动提取是遥感智能解译领域的一个重要研究课题,在国土资源规划、自然环境监测、智慧城市、国防等领域发挥了重要作用[1-2]。近年来,对地观测技术的快速发展极大地提高了遥感数据的获取质量和更新速度,使得多源遥感数据变得广泛可用,如高分影像和三维激光雷达(light detection and ranging,LiDAR)等数据为高精度地物信息提取提供了巨大机遇[3]。然而,细节信息复杂、信息量冗余的多源遥感数据也同时给地物提取任务带来了一系列问题与挑战[4]

    传统基于单一高分影像的地物自动提取方法主要包括基于像元方法与面向对象方法两大类。前者主要聚焦于像素的光谱、纹理等特征信息,使用基于阈值或基于特征空间聚类的方法来进行地物提取[5];后者以地物斑块作为最小分析对象,利用地物斑块的光谱特征、几何特征和多个特征组合来实现地物提取,其主要包括基于几何边界特征的方法、基于区域分割的方法和基于图模型的方法[6]。随着LiDAR技术的快速发展,其获取的三维点云数据的处理理论得到了广泛且深入的研究。传统基于LiDAR数据的地物自动提取方法有以支持向量机、随机森林等算法为代表的监督学习方法和以随机抽样一致性和霍夫变换等算法为代表的非监督学习方法[7]。在地物提取任务中,高分影像可提供丰富的光谱、纹理以及几何等信息,LiDAR数据则可通过其得到的数字地表模型(digital surface model,DSM)来提供地物的空间几何信息。基于数据融合的地物提取方法可以充分发挥这两者的数据优势,有效提高地物提取结果的精度和可靠性[8]。然而,传统基于多源遥感数据的地物提取方法仍存在精度有限、算法鲁棒性低等局限。

    近年来,基于深度学习的全卷积神经网络(fully convolutional networks,FCN)因具有端到端的强大特征表达和像素级分类能力,在遥感地物提取中取得了很好的效果[9]。目前,使用基于编码器-解码器架构的FCN模型来学习多源遥感数据中的地物特征能够有效提高地物提取的精度和可靠性[10]。其中,常用的处理方式是将基于LiDAR数据得到的DSM和基于影像得到的归一化植被指数(normalized difference vegetation index,NDVI)等作为网络辅助或额外的图像特征,或对不同数据源使用多个网络分别进行特征提取后,再进行特征融合来实现地物提取[11-13]。然而,这种处理方式不仅缺乏对多源遥感数据像元内在知识信息的充分挖掘,也增加了模型大小和计算量,提升了模型学习难度。此外,在不同遥感场景下地物复杂多变的空间尺寸大小也给模型的特征提取和学习带来了巨大挑战。尽管目前不少学者基于图像特征金字塔思想[14],通过设计出的多尺度网络结构极大提升了地物提取精度[15-16],但地物的多尺度特征信息仍有进一步挖掘的潜力。

    为解决上述问题,本文提出了遥感知识感知模块(knowledge-aware module,KAM)与串并联混合空洞卷积模块(series-parallel hybrid convolution module,SPHCM),设计了一种遥感知识感知与多尺度特征融合网络(knowledge-aware and multi-scale feature fusion network,KMFNet),提升了多源遥感数据的地物提取精度。

    • KMFNet总体架构如图 1所示。网络输入为512×512大小的多波段高分影像(近红外、红光、绿光波段)和LiDAR生成的归一化数字表面模型(normalized digital surface model,nDSM),经过网络模型后输出得到相同大小的地物分类图。

      图  1  遥感知识感知与多尺度特征融合网络

      Figure 1.  Structure of KMFNet

      KMFNet网络在编码器端采用深度残差网络ResNet50[17]作为其基础架构,同时进行了相应改进:(1)前端添加了遥感知识感知卷积模块(详见§1.2),该模块能够灵活、有效地将提取得到的遥感知识显式地融入网络中;(2)在第5个网络层,使用了空洞率分别为2、4、6的空洞卷积[18]来增大网络的感受野大小,提高网络对地物上下文语义信息的获取能力;(3)在网络编码器端和解码器端之间添加了针对高层次语义特征进行处理的串并联混合空洞卷积模块(详见§1.3),有效提高了网络对于地物多尺度上下文语义特征的学习能力。

      在网络解码器端,KMFNet采用了一种渐进式多层特征融合策略来最大程度恢复影像分类结果中的细节信息。该策略共汇总了三支来自编码器端网络的特征信息,包括编码器端的KAM模块的遥感知识特征、改进的ResNet50模块第2个网络层的浅层特征以及SPHCM模块的深层次特征。为实现不同类型特征信息的融合,在编码器端将遥感知识特征影像空间大小下采样至1/4尺寸,与改进的ResNet50提供的浅层特征信息一同输入到解码器端。为了减少特征波段数量、提高网络学习效率,在解码器端采用1×1卷积和上采样操作来实现浅层特征和深层特征的融合,随后经过2层3×3卷积和上采样操作,得到最终细化的地物分类结果图。

    • 本文在网络前端设计的KAM由3条不同网络分支并联组成,其结构如图 2所示。第1条网络分支接受3波段影像的输入,由7×7标准卷积、批量归一化层和激活层组成,第2条和第3条网络分支则分别接受nDSM和NDVI影像的输入,它们经7×7遥感知识感知卷积层处理得到对应的遥感知识特征图,最后将所有分支的特征进行融合。该模块能够有效挖掘多源遥感数据中像元内在知识信息,将其无缝融入网络模型中。

      图  2  遥感知识感知模块

      Figure 2.  Knowledge-Aware Module

      KAM中所用到的遥感知识感知卷积,其主要设计思路是使用了一种以高斯函数模型为计算函数的卷积核,来定量化描述像元间的相似信息,并将卷积核内所有像元对应的函数返回值的均值作为卷积窗口中间像元的输出结果。计算函数和求均值的计算式分别为:

      Fvij=e-vij-v022δ2 ((1))
      KPk=1n2Fvijn2 ((2))

      式中,Pk代表特征图上的像元;vij代表卷积核大小内的所有像元,ij分别代表卷积核内像元位置的宽、高索引;v0代表卷积核中心的像元值;δ代表高斯函数模型中的标准差项,取值为8.1;n代表卷积核窗口大小,取值为7;Fvij代表卷积核内所有像元经过高斯函数运算后的返回值;K(Pk)代表KAM模块在像元Pk处的返回值。

      该模型的基本假设为:在卷积窗口大小范围内,与窗口中心像元具有相似值的像元会被认为与其有更大的类别相关性,进而被赋予更大的像元值,从而得到能够表达像元间相似信息的遥感知识特征图,其整体计算过程如图 3所示。

      图  3  遥感知识感知卷积运算示意图

      Figure 3.  Calculation Process of Knowledge-Aware Convolution

    • 为加强网络对各类地物的多尺度及上下文信息的学习能力,本文在KMFNet的编码器和解码器端之间插入了串并联混合空洞卷积模块(series-parallel hybrid convolution module,SPHCM)。如图 4所示,在SPHCM模块中,网络编码器端输出的高层次特征图在该模块中经过了三条主分支,中间分支通过1×1卷积层降低其通道数,并结合了不同空洞率(d=4,8,12,16)的空洞卷积层、1×1卷积层、归一化层和激活层,这些不同类型的网络层通过串并联的方式结合在一起,在多个网络感受野大小下得到4类不同的输出特征图。其他两条分支得到的输出特征图则作为额外添加的输入特征,输入到SPHCM模块后端特征融合层内。

      图  4  串并联混合空洞卷积模块

      Figure 4.  Series-Parallel Hybrid Convolution Module

      在SPHCM模块后端,将6条不同路径分支输出特征图在相同空间大小基础上进行融合,随后经过1×1卷积运算层、归一化层和激活层,最终输出到网络模型的解码器端。本文提出的SPHCM模块能够通过不断叠加和组合空洞卷积层,在不同感受野大小下捕捉地物的多尺度特征,有效提高了其对于各类地物的全局上下文特征信息的挖掘能力。

    • 本文选用ISPRS语义分割标准数据集对各类地物提取方法进行了对比与测试(http://www.isprs.org/commissions/comm3/wg4/semantic-labeling.html)。该数据集具有多个由不同空间尺寸大小地物(不透水面、建筑、低矮植被、树木、车辆)组成的复杂城市场景,能够很好地验证不同地物提取方法的精度和泛化性。数据集主要包括:(1)高分正射遥感影像;(2)与遥感影像对应的nDSM;(3)基于遥感影像人工标注得到的地物真实类型标签。其中,斯图加特(Vaihingen)数据集原始影像空间分辨率为0.09 m,波茨坦(Potsdam)数据集原始影像空间分辨率为0.05 m。Potsdam数据集影像含有近红外波段、红光波段、绿光波段和蓝光波段,而Vaihingen数据集影像只含有3个波段(近红外、红光、绿光)。为保证与Vaihingen数据集的可比性,本文只保留了Potsdam数据集影像的近红外波段、红光波段和绿光波段作为网络模型的输入。考虑到当前图形处理器(graphics processing unit,GPU)性能,本文分别将这两个数据集随机裁减成4 200个和12 800个512×512像素的图块,从中选取部分影像进行实验,其基本参数以及训练集、验证集与测试集分配如表 1所示。

      表 1  数据集属性与训练分配

      Table 1.  Basic Attribute and Training Assignment of Datasets

      数据集 分辨率
      /m
      图块尺寸
      /像素
      训练集
      /张
      验证集
      /张
      测试集
      /张
      Vaihingen 0.09 512×512 1 200 150 350
      Potsdam 0.05 512×512 6 000 800 2 000
    • FCN语义分割网络的特征学习过程通常需要大量的训练数据,使用一定的数据增强方法能够有效改善网络的学习效率,同时避免网络的过拟合问题来增强模型的泛化能力[19]。在网络的每一个训练批次中,网络对于每一个影像块随机使用水平翻转、垂直翻转、镜面翻转、转置等数据增强操作。本文训练所使用的目标函数的表达式为:

      L=-i=1KyilogPi  ((3))

      式中,K代表类别数量;yi代表符号函数,如果样本类别是i,则yi=1,否则为0;Pi是网络的输出,也是观测样本类别i的预测概率。

      为检验KMFNet的地物提取效果,引入了目前性能较好、应用广泛的GRRNet[20]、V-FuseNet[11]、DLR[12]、Res-U-Net[21]作为对比方法。这5种网络都在ISPRS语义分割标准数据集上进行测试,使用相同的训练集、验证集与测试集。本文实验统一在单块NVIDIA RTX Titan 2080上使用LuoJiaNET遥感智能解译开源深度学习框架进行了实现(https://github.com/WHULuoJiaTeam/luojianet)。

      在网络的每一个训练批次中,网络使用梯度自动下降(stochastic gradient descent,SGD)策略来进行自动学习与训练。其中,网络设置的初始学习率为0.000 1,学习率的权重衰减值为0.000 5,动量值为0.9,批尺寸大小为4,训练轮数为300,网络模型中总的训练循环次数为40 000,当循环次数在15 000次与25 000次之间时,网络学习率每隔5 000次会减少为当前学习率的1/10。网络中的初始化参数均使用了He初始值方法来进行设置。

      KMFNet的输入数据包括多波段的高分影像及其对应的nDSM,基于遥感影像人工标注得到的地物真实类型标签则作为网络监督训练过程中的真实参考数据。另外,对于遥感知识感知模块所输入的NDVI影像,本文基于网络输入的高分影像,使用LuoJiaNET框架自带的NDVI遥感先验知识提取算子来计算获得。

    • 本文使用了语义分割任务中最常用的总体精度(overall accuracy,OA)和交并比分数(intersection over union,IoU)这两类评价指标来评价各方法的提取效果,其计算式分别为:

      OA=TP+TNTP+FN+FP+TN×100% ((4))
      IoU=TPTP+FN+FP×100% ((5))

      式中,TP(true positive)表示真实为正类且模型预测为正类的样本数;FP(false positive)表示真实为负类但模型预测为正类的样本数;FN(false negative)表示真实为正类但模型预测为负类的样本数;TN(true negative)表示真实为负类且模型预测为负类的样本数。本文在§2.4中使用的平均交并比分数(mean intersection over union,mIoU)可看作每个地物类别IoU的平均值。

    • 将GRRNet、V-FuseNet、DLR、Res-U-Net与KMFNet在ISPRS语义分割标准数据集上进行测试,选取了不同遥感场景来进行对比,结果如图 5所示。从图 5的视觉表现来看,KMFNet在不同场景下的提取结果与地面真值的相似度最高,所提取地物的整体和边界细节最为完整,效果要明显优于其他4种对比方法。例如KMFNet可以保留建筑物精确的位置信息,其内部出现的空洞较少,提取出的建筑物具有丰富的边界信息,而其他方法则出现了不同程度的建筑物粘粘或边界细节缺失的问题;在密集的车辆停放区域,由于车辆之间间距小、密度大,导致其难以被区分,KMFNet能够很好地区分出不同的车辆。

      图  5  不同方法地物提取结果

      Figure 5.  Results of Ground Object Extraction Using Different Methods

      表 2为KMFNet在ISPRS两个不同数据集上的地物提取精度。为了验证本文提出的KAM和SPHCM模块的效果,将基于ResNet50改进的编码器-解码器端语义分割框架作为基准网络(Baseline),在ISPRS数据集上进行了一系列的消融实验,结果见表 3。从表 3可以看出,在Baseline上添加KAM模块后,网络模型在Vaihingen数据集上的OA和mIoU分别提高了2.76%和3.11%;在Potsdam数据集上的OA和mIoU分别提高了1.01%和2.12%。而在Baseline上同时添加KAM模块和SPHCM模块后,网络模型在Vaihingen数据集上的OA能达到85.69%,mIoU能达到72.84%;在Potsdam数据集上的OA能达到86.67%,mIoU能达到73.69%。其精度结果相较于Baseline有明显提高,可见本文提出模块的有效性。

      表 2  KMFNet在不同数据集上的分类精度/%

      Table 2.  Classification Accuracy of KMFNet in Different Datasets /%

      数据集 不透水面 建筑 低矮植被 树木 车辆 平均
      IoU OA IoU OA IoU OA IoU OA IoU OA IoU OA
      Vaihingen 79.21 86.21 85.32 90.27 67.35 86.36 76.54 88.44 55.78 77.18 72.84 85.69
      Potsdam 78.05 85.32 86.76 91.71 68.12 86.44 74.92 87.26 60.02 82.63 73.69 86.67

      表 3  本文所提模块在不同数据集上的消融实验结果/%

      Table 3.  Ablation Study of the Proposed Modules in Different Datasets /%

      模型 Vaihingen数据集 Potsdam数据集
      mIoU OA mIoU OA
      Baseline 67.32 80.11 67.45 83.21
      Baseline+KAM 70.43 82.87 69.57 84.22
      Baseline+KAM+SPHCM 72.84 85.69 73.69 86.67

      为了比较KMFNet与其他4种方法的提取精度,本文在ISPRS语义分割标准数据集上进行地物提取,其统计结果见表 4。由表 4可以看出,KMFNet在总体精度上具有更好的表现。在Vaihingen数据集上,相较于GRRNet、V-FuseNet、DLR、Res-U-Net,KMFNet的总体精度分别提升了2.19%、4.63%、1.93%、4.02%;相较于其他方法,对不透水面、建筑、低矮植被、树木这4类地物的提取精度最高,对车辆的提取结果略低于DLR。在ISPRS的Potsdam数据集上,相较于GRRNet、V-FuseNet、DLR、Res-U-Net,KMFNet的总体精度分别提升了1.52%、3.46%、1.75%、4.54%;相较于其他方法,对建筑、低矮植被、树木、车辆这4类地物的提取精度最高,对不透水面的提取结果略低于GRRNet。

      表 4  不同地物自动提取方法在不同数据集上的分类精度/%

      Table 4.  Classification Accuracy of Different Methods in Different Datasets /%

      方法 Vaihingen数据集 Potsdam数据集
      不透水面 建筑 低矮植被 树木 车辆 总体精度 不透水面 建筑 低矮植被 树木 车辆 总体精度
      GRRNet 84.23 90.11 82.56 85.32 75.26 83.50 85.56 89.21 83.21 86.01 81.77 85.15
      V-FuseNet 82.61 86.88 80.2 83.11 72.48 81.06 84.01 87.33 82.64 83.06 79.02 83.21
      DLR 81.24 88.25 84.27 87.02 78.01 83.76 83.65 89.69 84.23 85.23 81.79 84.92
      Res-U-Net 81.99 86.31 81.21 84.94 73.92 81.67 81.22 85.98 80.26 83.54 79.67 82.13
      KMFNet 86.21 90.27 86.36 88.44 77.18 85.69 85.32 91.71 86.44 87.26 82.63 86.67

      Res-U-Net整合了两种常用网络框架,在网络模型的输出端使用了一个导向滤波后处理模块来优化建筑物提取结果,但是在特征提取阶段没有针对性地进行多尺度特征提取,导致在地物对象提取完整性上表现不佳。V-FuseNet注重对多源数据不同特征的融合方式进行挖掘,设计了一种残差融合结构来完成特征融合,但是在网络解码器端没有对地物特征细节进行补充,提取效果有待提升。DLR在多个分支网络中使用了一种地物对象边界检测机制,在实验中取得了较好的地物提取效果,但在特征提取阶段缺乏对像元间遥感先验知识的显式挖掘,故在建筑物、植被等地物的提取效果上不如KMFNet。GRRNet通过在ResNet50的基础上引入门控特征标记单元,通过提高网络中特征的传输和学习效率,达到了较高的地物提取精度,但是该方法仅简单地将nDSM作为高分影像额外的特征波段一起输入到网络中,缺乏对多源遥感数据特征的深度融合,削弱了地物提取的效果。KMFNet在特征提取阶段使用了KAM模块来对像元间的相似信息进行高效、显式地挖掘,对遥感知识特征进行了深度融合;在特征处理阶段引入了SPHCM模块,增强对不同尺度地物特征的学习能力,故具有最好的提取效果。另外,KMFNet在网络解码器端使用了一种渐进式多层特征融合策略,极大补充了地物提取结果的细节特征,在保证精度的同时具有较好的计算效率。

      在性能测试上,当训练影像为1 200张、影像大小为512×512像素、批尺寸为4时,KMFNet、GRRNet、V-FuseNet、DLR、Res-U-Net在LuoJiaNET框架中完成一轮训练的平均耗时分别为840.24 s、893.23 s、1 284.33 s、1 547.34 s、1 165.79 s,可见KMFNet在性能上具有一定优势。

    • 针对目前FCN语义分割网络对于多源遥感数据学习效率不高、地物提取结果缺乏细节信息等问题,本文在改进的深度残差网络ResNet50结构基础上,融入提出的遥感知识感知模块和串并联混合空洞卷积模块,设计了一种遥感知识感知与多尺度特征融合网络KMFNet,同时在网络解码器端采用了渐进式多层特征融合策略,得到了高精度地物提取结果。遥感知识感知模块使用了一种遥感知识感知卷积核来高效、显式地挖掘多源遥感数据中的遥感知识特征。串并联混合空洞卷积模块在6种不同路径的感受野尺寸下捕捉了地物的多尺度特征,加强了网络对于上下文全局信息的学习能力。本文使用LuoJiaNET遥感智能解译开源深度学习框架,在公开的ISPRS语义分割标准数据集上对多种主流的地物提取方法进行了大量实验和评估。实验结果表明,与GRRNet、V-FuseNet、DLR、Res-U-Net这4种方法相比,KMFNet能够在多源遥感数据上取得最佳地物提取效果。为进一步提高地物提取的准确率,可尝试在网络中融入更多遥感先验知识。

参考文献 (21)

目录

    /

    返回文章
    返回