留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

结合空洞卷积的FuseNet变体网络高分辨率遥感影像语义分割

杨军 于茜子

杨军, 于茜子. 结合空洞卷积的FuseNet变体网络高分辨率遥感影像语义分割[J]. 武汉大学学报 ● 信息科学版, 2022, 47(7): 1071-1080. doi: 10.13203/j.whugis20200305
引用本文: 杨军, 于茜子. 结合空洞卷积的FuseNet变体网络高分辨率遥感影像语义分割[J]. 武汉大学学报 ● 信息科学版, 2022, 47(7): 1071-1080. doi: 10.13203/j.whugis20200305
YANG Jun, YU Xizi. Semantic Segmentation of High-Resolution Remote Sensing Images Based on Improved FuseNet Combined with Atrous Convolution[J]. Geomatics and Information Science of Wuhan University, 2022, 47(7): 1071-1080. doi: 10.13203/j.whugis20200305
Citation: YANG Jun, YU Xizi. Semantic Segmentation of High-Resolution Remote Sensing Images Based on Improved FuseNet Combined with Atrous Convolution[J]. Geomatics and Information Science of Wuhan University, 2022, 47(7): 1071-1080. doi: 10.13203/j.whugis20200305

结合空洞卷积的FuseNet变体网络高分辨率遥感影像语义分割

doi: 10.13203/j.whugis20200305
基金项目: 

国家自然科学基金 61862039

甘肃省科技计划 20JR5RA429

2021年度中央引导地方科技发展资金 2021-51

兰州交通大学优秀平台支持项目 201806

详细信息
    作者简介:

    杨军,博士,教授,博士生导师,主要从事计算机图形学、数字图像处理和地理信息系统等方面的研究。yangj@mail.lzjtu.cn

  • 中图分类号: P237

Semantic Segmentation of High-Resolution Remote Sensing Images Based on Improved FuseNet Combined with Atrous Convolution

Funds: 

The National Natural Science Foundation of China 61862039

Science and Technology Program of Gansu Province 20JR5RA429

2021 Central Government Funds for Guiding Local Science and Technology Development 2021-51

Excellent Platform Support Project of Lanzhou Jiaotong University 201806

More Information
    Author Bio:

    YANG Jun, PhD, professor, specializes in computer graphics, image processing, and geographic information system. E-mail: yangj@mail.lzjtu.cn

  • 摘要: 针对多模态、多尺度的高分辨率遥感影像分割问题,提出了结合空洞卷积的FuseNet变体网络架构对常见的土地覆盖对象类别进行语义分割。首先,采用FuseNet变体网络将数字地表模型(digital surface model,DSM)图像中包含的高程信息与红绿蓝(red green blue,RGB)图像的颜色信息融合;其次,在编码器和解码器中分别使用空洞卷积来增大卷积核感受野;最后,对遥感影像逐像素分类,输出遥感影像语义分割结果。实验结果表明,所提算法在国际摄影测量与遥感学会(International Society for Photogrammetry and Remote Sensing, ISPRS)提供的Potsdam、Vaihingen数据集上的mF1得分分别达到了91.6%和90.4%,优于已有的主流算法。
  • 图  1  用于遥感数据融合的FuseNet架构[9]

    Figure  1.  FuseNet Architecture for Fusion of Remote Sensing Data [9]

    图  2  多模态数据融合策略

    Figure  2.  Multimodal Data Fusion Strategy

    图  3  结合空洞卷积的FuseNet变体网络结构

    Figure  3.  Structure of Improved Network Based on FuseNet and Atrous Convolution

    图  4  最大池化和反池化操作对4×4特征图的影响

    Figure  4.  Influence of Max Pooling and Unpooling Operation on 4×4 Characteristic Pattern

    图  5  损失值曲线

    Figure  5.  Loss Curve

    图  6  ISPRS Vaihingen和Potsdam数据集的分割结果

    Figure  6.  Segmentation Results of ISPRS Vaihingen and Potsdam Dataset

    图  7  ISPRS Vaihingen和Potsdam数据集分割实例细节对比

    Figure  7.  Comparison of Detailed Segmentation Results on ISPRS Vaihingen and Potsdam Dataset

    表  1  ISPRS Vaihingen和Potsdam数据集的分割准确率

    Table  1.   Segmentation Accuracy Results on ISPRS Vaihingen and Potsdam Dataset

    数据集 F1得分 OA 平均F1得分
    建筑 树木 低矮植被 不透水域表面 汽车
    Vaihingen 0.955 0.921 0.836 0.937 0.871 0.915 0.904
    Potsdam 0.956 0.864 0.906 0.917 0.939 0.909 0.916
    下载: 导出CSV

    表  2  V-Fusion单元与Fusion单元在Vaihingen数据集上的分割准确率比较

    Table  2.   Comparison of Segmentation Accuracy Between V-Fusion Unit and Fusion Unit on Vaihingen Dataset

    FuseNet网络 F1得分 OA 平均F1得分
    建筑 树木 低矮植被 不透水域表面 汽车
    Fusion单元 0.939 0.846 0.833 0.911 0.853 0.898 0.876
    V-Fusion单元 0.955 0.921 0.836 0.937 0.871 0.915 0.904
    下载: 导出CSV

    表  3  V-Fusion单元与Fusion单元在Potsdam数据集上的分割准确率比较

    Table  3.   Comparison of Segmentation Accuracy Between V-Fusion Unit and Fusion Unit on Potsdam Dataset

    FuseNet网络 F1得分 OA 平均F1得分
    建筑 树木 低矮植被 不透水域表面 汽车
    Fusion单元 0.942 0.863 0.828 0.909 0.930 0.882 0.894
    V-Fusion单元 0.956 0.864 0.906 0.917 0.939 0.909 0.916
    下载: 导出CSV

    表  4  Vaihingen数据集上IFA-CNN与非编码器-解码器结构网络对小目标地物分割准确率比较

    Table  4.   Comparison of Segmentation Accuracy for Small Objects Between IFA-CNN and Non-Encoder-Decoder Network on Vaihingen Dataset

    类别 F1得分
    UOA[15] ADL_3[16] DST_2[17] IFA-CNN
    汽车 0.820 0.633 0.726 0.871
    低矮植被 0.804 0.823 0.834 0.836
    下载: 导出CSV

    表  5  Potsdam数据集上IFA-CNN与非编码器-解码器结构网络对小目标地物分割的准确率比较

    Table  5.   Comparison of the Segmentation Accuracy for Small Objects Between IFA-CNN and Non-Encoder-Decoder Network on Potsdam Dataset

    类别 F1得分
    FCN[7] SCNN[18] RGB+ Iensembel[19] IFA-CNN
    汽车 0.893 0.912 0.892 0.939
    低矮植被 0.800 0.837 0.822 0.906
    下载: 导出CSV

    表  6  本文方法与其他方法在Vaihingen上的分割准确率对比

    Table  6.   Comparison of the Accuracy of the Proposed Method with Other Methods on Vaihingen Dataset

    模型 F1得分 OA 平均F1得分
    建筑 树木 低矮植被 不透水域表面 汽车
    ADL_3[16] 0.932 0.882 0.823 0.895 0.633 0.880 0.833
    ONE_7[20] 0.945 0.899 0.844 0.910 0.778 0.898 0.875
    GSN[21] 0.951 0.899 0.837 0.922 0.824 0.903 0.887
    IFA-CNN 0.955 0.921 0.836 0.937 0.871 0.915 0.904
    下载: 导出CSV

    表  7  本文方法与其他方法在Potsdam上的分割准确率对比

    Table  7.   Comparison of the Accuracy of the Proposed Method with Other Methods on Potsdam Dataset

    模型 F1得分 OA 平均F1得分
    建筑 树木 低矮植被 不透水域表面 汽车
    RiFCN[22] 0.930 0.819 0.837 0.917 0.937 0.883 0.861
    RGB+I-ensemble[19] 0.936 0.845 0.822 0.870 0.892 0.900 0.873
    Hallucination[23] 0.938 0.848 0.821 0.873 0.882 0.901 0.872
    S-RA-FCN[24] 0.947 0.835 0.868 0.913 0.945 0.886 0.880
    IFA-CNN 0.956 0.864 0.906 0.917 0.939 0.909 0.916
    下载: 导出CSV
  • [1] Kampffmeyer M, Salberg A B, Jenssen R. Semantic Segmentation of Small Objects and Modeling of Uncertainty in Urban Remote Sensing Images Using Deep Convolutional Neural Networks [C]//IEEE Conference on Computer Vision and Pattern Recognition Workshops, Las Vegas, NV, USA, 2016
    [2] Wang H, Wang Y, Zhang Q, et al. Gated Convolutional Neural Network for Semantic Segmentation in High-Resolution Images[J]. Remote Sensing, 2017, 9(5): 1-15
    [3] Mou Lichao, Hua Yuansheng, Zhu Xiaoxiang. A Relation-Augmented Fully Convolutional Network for Semantic Segmentation in Aerial Scenes[C]//IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, CA, USA, 2019
    [4] Szegedy C, Liu W, Jia Y, et al. Going Deeper with Convolutions[C]//IEEE Conference on Computer Vision and Pattern Recognition, Boston, MA, USA, 2015
    [5] Hoffman J, Gupta S, Darrell T. Learning with Side Information Through Modality Hallucination[C]//IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 2016
    [6] Hazirbas C, Ma L, Domokos C, et al. FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-Based CNN Architecture[C]//Asian Conferen-ce on Computer Vision, Taipei, China, 2016
    [7] Long J, Shelhamer E, Darrell T. Fully Convolutional Networks for Semantic Segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 39(4): 640-651
    [8] Badrinarayanan V, Kendall A, Segnet R C. A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495 doi:  10.1109/TPAMI.2016.2644615
    [9] Sherrah J. Fully Convolutional Networks for Dense Semantic Labelling of High-Resolution Aerial Imagery[EB/OL]. (2016-06-08)[2020-06-22]. https://www.doc88.com/p-0704858988942.html
    [10] Nogueira K, Penatti O A B, Santos J A D. Towards Better Exploiting Convolutional Neural Networks for Remote Sensing Scene Classification[J]. Pattern Recognition, 2017, 61: 539-556 doi:  10.1016/j.patcog.2016.07.001
    [11] 张康, 黑保琴, 周壮, 等. 变异系数降维的CNN高光谱遥感图像分类[J]. 遥感学报, 2018, 22(1): 91-100 https://www.cnki.com.cn/Article/CJFDTOTAL-YGXB201801008.htm

    Zhang Kang, Baoqin Hei, Zhou Zhuang, et al. CNN with Coefficient of Variation-Based Dimensionality Reduction for Hyperspectral Remote Sensing Images Classification[J]. Journal of Remote Sensing, 2018, 22(1): 91-100 https://www.cnki.com.cn/Article/CJFDTOTAL-YGXB201801008.htm
    [12] Everingham M, Eslami S M A, van Gool L, et al. The Pascal Visual Object Classes Challenge: A Retrospective[J]. International Journal of Computer Vision, 2015, 111(1): 98-136 doi:  10.1007/s11263-014-0733-5
    [13] Gerke M, Rottensteiner F, Wegner J D, et al. ISPRS Semantic Labeling Contest[J]. Remote Sensing, 2020, 12(3): 417-446 doi:  10.3390/rs12030417
    [14] Ngiam J, Khosla A, Kim, et al. Multimodal Deep Learning[C]// The 28th International Conference on Machine Learning, Washington DC, USA, 2011
    [15] Chen L C, Papandreou G, Kokkinos I, et al. Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFS[J]. Computer Science, 2014, 4: 357-361
    [16] Luo W, Li Y, Urtasun R, et al. Understanding the Effective Receptive Field in Deep Convolutional Neural Networks[C]// The 30th Conference on Advances in Neural Information Processing Systems, Barcelona, Spain, 2016
    [17] Yu F, Koltun V. Multi-Scale Context Aggregation by Dilated Convolutions[C]//International Conference on Learning Representations, San Juan, Puerto Rico, 2016
    [18] Liu Y, Piramanayagam S, Monteiro S T, et al. Dense Semantic Labeling of Very-High-Resolution Aerial Imagery and LiDAR with Fully-Convolutional Neural Networks and Higher-Order CRFs[C]//IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, Hawii, USA, 2017
    [19] 赵俊, 郭飞霄, 李琦. PEIV模型WTLS估计的Fisher-Score算法[J]. 武汉大学学报∙信息科学版, 2019, 44(2): 214-220 doi:  10.13203/j.whugis20170061

    Zhao Jun, Guo Feixiao, Li Qi. Fisher-Score Algorithm of WTLS Estimation for PEIV Model[J]. Geomatics and Information Science of Wuhan University, 2019, 44(2): 214-220 doi:  10.13203/j.whugis20170061
    [20] Chen G, Zhang X, Wang Q, et al. Symmetrical Dense-Shortcut Deep Fully Convolutional Networks for Semantic Segmentation of Very-High-Resolution Remote Sensing Images[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2018, 11(5): 1633-1644 doi:  10.1109/JSTARS.2018.2810320
    [21] Wei Y, Xiao H, Shi H, et al. Revisiting Dilated Convolution: A Simple Approach for Weakly-and Semi-supervised Semantic Segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, 2018
    [22] Lin G S, Shen C H, van den Hengel A, et al. Efficient Piecewise Training of Deep Structured Models for Semantic Segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 2016
    [23] Paisitkriangkrai S, Sherrah J, Janney P, et al. Effective Semantic Pixel Labelling with Convolutional Networks and Conditional Random Fields[C]//IEEE Conference on Computer Vision and Pattern Recognition Workshops, Boston, MA, USA, 2015
    [24] Audebert N, Saux B L, Lefèvre S. Semantic Segmentation of Earth Observation Data Using Multimodal and Multi-Scale Deep Networks[C]//The 13th Asian Conference on Computer Vision, Taipei, China, 2016
  • [1] 邵振峰, 孙悦鸣, 席江波, 李岩.  智能优化学习的高空间分辨率遥感影像语义分割 . 武汉大学学报 ● 信息科学版, 2022, 47(2): 234-241. doi: 10.13203/j.whugis20200640
    [2] 杨元维, 王明威, 高贤君, 李熙, 张佳华.  改进Wallis模型的高分辨率遥感影像阴影自动补偿方法 . 武汉大学学报 ● 信息科学版, 2021, 46(3): 318-325. doi: 10.13203/j.whugis20190032
    [3] 张瑞菊, 周欣, 赵江洪, 曹闵.  一种古建筑点云数据的语义分割算法 . 武汉大学学报 ● 信息科学版, 2020, 45(5): 753-759. doi: 10.13203/j.whugis20180428
    [4] 蒋腾平, 杨必胜, 周雨舟, 朱润松, 胡宗田, 董震.  道路点云场景双层卷积语义分割 . 武汉大学学报 ● 信息科学版, 2020, 45(12): 1942-1948. doi: 10.13203/j.whugis20200081
    [5] 张瑞倩, 邵振峰, Aleksei Portnov, 汪家明.  多尺度空洞卷积的无人机影像目标检测方法 . 武汉大学学报 ● 信息科学版, 2020, 45(6): 895-903. doi: 10.13203/j.whugis20200253
    [6] 王春艳, 刘佳新, 徐爱功, 王玉, 隋心.  一种新的高分辨率遥感影像模糊监督分类方法 . 武汉大学学报 ● 信息科学版, 2018, 43(6): 922-929. doi: 10.13203/j.whugis20150726
    [7] 沈佳洁, 潘励, 胡翔云.  可变形部件模型在高分辨率遥感影像建筑物检测中的应用 . 武汉大学学报 ● 信息科学版, 2017, 42(9): 1285-1291. doi: 10.13203/j.whugis20150048
    [8] 仇林遥, 杜志强, 谢金华, 邱振戈, 许伟平, 张叶廷.  大文件高分辨率遥感影像的实时可视化方法 . 武汉大学学报 ● 信息科学版, 2016, 41(8): 1021-1026. doi: 10.13203/j.whugis20140379
    [9] 亮, 舒宁, 龚龑, 王凯.  一种面向像斑的高分辨率遥感影像相对辐射校正方法李 . 武汉大学学报 ● 信息科学版, 2014, 39(4): 401-405. doi: 10.13203/j.whugis20120642
    [10] 余洁, 余峰, 张晶, 刘振宇.  结合区域生长与道路基元的高分辨率遥感影像道路提取 . 武汉大学学报 ● 信息科学版, 2013, 38(7): 761-764.
    [11] 陈洪, 陶超, 邹峥嵘, 于菲菲.  一种新的高分辨率遥感影像城区提取方法 . 武汉大学学报 ● 信息科学版, 2013, 38(9): 1063-1067.
    [12] 闫利, 赵展, 聂倩, 姚尧.  利用规则进行高分辨率遥感影像地物提取 . 武汉大学学报 ● 信息科学版, 2012, 37(6): 636-639.
    [13] 任娜, 朱长青, 王志伟.  抗几何攻击的高分辨率遥感影像半盲水印算法 . 武汉大学学报 ● 信息科学版, 2011, 36(3): 329-332.
    [14] 万幼川, 黄俊.  几何和图论特征对高分辨率遥感影像土地利用分类的影响 . 武汉大学学报 ● 信息科学版, 2009, 34(7): 794-798.
    [15] 穆超, 余洁, 许磊, 郭培煌.  基于高分辨率遥感影像的DSM建筑物点的提取研究 . 武汉大学学报 ● 信息科学版, 2009, 34(4): 414-417.
    [16] 林祥国, 张继贤, 李海涛, 杨景辉.  基于T型模板匹配半自动提取高分辨率遥感影像带状道路 . 武汉大学学报 ● 信息科学版, 2009, 34(3): 293-296.
    [17] 王爱萍, 王树根, 吴会征.  利用分层聚合进行高分辨率遥感影像多尺度分割 . 武汉大学学报 ● 信息科学版, 2009, 34(9): 1055-1058.
    [18] 苏俊英, 曹辉, 张剑清.  高分辨率遥感影像上居民地半自动提取研究 . 武汉大学学报 ● 信息科学版, 2004, 29(9): 791-795.
    [19] 赫晓慧, 陈明扬, 李盼乐, 田智慧, 周广胜.  结合DCNN与短距条件随机场的遥感影像道路提取 . 武汉大学学报 ● 信息科学版, 0, 0(0): 0-0. doi: 10.13203/j.whugis20210464
    [20] 项学泳, 李广云, 王力, 宗文鹏, 吕志鹏, 向奉卓.  使用局部几何特征与空洞邻域的点云语义分割 . 武汉大学学报 ● 信息科学版, 0, 0(0): 0-0. doi: 10.13203/j.whugis20200567
  • 加载中
图(7) / 表(7)
计量
  • 文章访问数:  131
  • HTML全文浏览量:  60
  • PDF下载量:  38
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-09-24
  • 刊出日期:  2022-07-05

结合空洞卷积的FuseNet变体网络高分辨率遥感影像语义分割

doi: 10.13203/j.whugis20200305
    基金项目:

    国家自然科学基金 61862039

    甘肃省科技计划 20JR5RA429

    2021年度中央引导地方科技发展资金 2021-51

    兰州交通大学优秀平台支持项目 201806

    作者简介:

    杨军,博士,教授,博士生导师,主要从事计算机图形学、数字图像处理和地理信息系统等方面的研究。yangj@mail.lzjtu.cn

  • 中图分类号: P237

摘要: 针对多模态、多尺度的高分辨率遥感影像分割问题,提出了结合空洞卷积的FuseNet变体网络架构对常见的土地覆盖对象类别进行语义分割。首先,采用FuseNet变体网络将数字地表模型(digital surface model,DSM)图像中包含的高程信息与红绿蓝(red green blue,RGB)图像的颜色信息融合;其次,在编码器和解码器中分别使用空洞卷积来增大卷积核感受野;最后,对遥感影像逐像素分类,输出遥感影像语义分割结果。实验结果表明,所提算法在国际摄影测量与遥感学会(International Society for Photogrammetry and Remote Sensing, ISPRS)提供的Potsdam、Vaihingen数据集上的mF1得分分别达到了91.6%和90.4%,优于已有的主流算法。

English Abstract

杨军, 于茜子. 结合空洞卷积的FuseNet变体网络高分辨率遥感影像语义分割[J]. 武汉大学学报 ● 信息科学版, 2022, 47(7): 1071-1080. doi: 10.13203/j.whugis20200305
引用本文: 杨军, 于茜子. 结合空洞卷积的FuseNet变体网络高分辨率遥感影像语义分割[J]. 武汉大学学报 ● 信息科学版, 2022, 47(7): 1071-1080. doi: 10.13203/j.whugis20200305
YANG Jun, YU Xizi. Semantic Segmentation of High-Resolution Remote Sensing Images Based on Improved FuseNet Combined with Atrous Convolution[J]. Geomatics and Information Science of Wuhan University, 2022, 47(7): 1071-1080. doi: 10.13203/j.whugis20200305
Citation: YANG Jun, YU Xizi. Semantic Segmentation of High-Resolution Remote Sensing Images Based on Improved FuseNet Combined with Atrous Convolution[J]. Geomatics and Information Science of Wuhan University, 2022, 47(7): 1071-1080. doi: 10.13203/j.whugis20200305
  • 遥感影像语义分割是遥感影像信息获取的关键环节,也是近年来的研究热点,相关研究成果已广泛应用于土地利用变化检测、交通监测和灾害预警评估等方面[1]。高分辨率遥感影像能够表现丰富的地物信息,有利于提取地物的复杂特征以识别复杂的人造目标。

    传统的遥感图像语义分割主要是通过提取图像的低级特征进行分割,分割结果缺乏语义标注。文献[2]通过随机森林分类器提取语义特征进行语义分割。文献[3]利用Logistic回归分类器提取颜色、纹理特征,通过条件随机场(conditional random field,CRF)模型训练实现语义分割。然而,传统的遥感图像语义分割方法对特征的提取和表达,需要依靠先验知识进行人工选择和设计,并且在建立相应语义分割模型的过程中,人工设计的特征和高层语义特征之间存在差距,因此建立的语义分割模型泛化能力较差。

    随着深度学习理论的发展与普及,深度神经网络模型已广泛应用于不同行业[4]。研究者在遥感影像分析处理中应用深度学习方法,取得了较为理想的效果[5-6]。全卷积网络[7](fully convolutional networks,FCN)和SegNet网络[8]在高分辨率遥感影像语义分割中展现出了较为优异的性能与分割效果,但FCN对像素进行分类时没有考虑到像素之间的关系,忽略了基于像素分类的空间规划步骤,缺乏空间一致性。SegNet的基本网络结构为编码器-解码器,编码器对图像进行高维特征提取和下采样,解码器对提取的特征图进行上采样操作,因此编码器-解码器结构可以以1∶1的分辨率进行像素预测,但上采样的过程中易丢失细节信息,使得小目标地物的分割效果较差。文献[9]分别提取红绿蓝(red green blue,RGB)信息和数字地表模型(digital surface model,DSM)信息,并将它们融合集成到SegNet结构中进行语义分割,获得高分辨率的多模态预测RGB-DSM数据用于异构数据源的联合学习。然而该融合策略无法平衡高程信息和颜色信息,导致图像分割不准确。因此,本文针对高分辨率遥感影像中多模态数据融合效果不佳、边缘分割效果不理想、类边界模糊和易产生误分割现象等问题,受编码器-解码器和文献[6]中FuseNet网络结构的启发,对FuseNet网络结构进行改进,提出了一种结合空洞卷积的FuseNet变体网络(improved FuseNet with atrous convolution-convolutional neural network,IFA-CNN)模型。在编码器部分,提出虚拟融合单元来提高遥感影像语义分割效果;针对遥感影像提取特征部分,引入空洞卷积调整感受野捕获遥感影像多尺度信息,提高目标分割效果;在解码器部分,链接编码器并提取融合特征,以提高网络鲁棒性。

    • 文献[10]中,FuseNet采用了编码器-解码器结构将二维图像数据融合。FuseNet架构如图 1所示,其中,pooling为池化操作,conv为卷积操作,unpooling为反池化操作,IRRG为近红外、红外和绿波段,Ⓒ为融合操作。图 1中使用了两个编码器对RGB和DSM进行联合编码,首先将编码后的特征图输入到解码器中进行上采样,然后由分类器进行弱分类,通过softmax得到最终分割结果。同时,FuseNet选择深度信息作为辅助特征进行多模态数据融合,如图 2(a)所示,其中,aux为辅助分支,main为主分支,mix为虚拟融合操作。但FuseNet在进行多模态数据融合时,DSM分支与RGB分支存在不对称,使得DSM分支仅提取深度特征,RGB分支需要提取DSM与RGB数据的融合。此外,这种不对称的融合方案导致在解码过程中只使用主分支编码时的索引进行上采样,在一定程度上会影响遥感影像的分割效果。

      图  1  用于遥感数据融合的FuseNet架构[9]

      Figure 1.  FuseNet Architecture for Fusion of Remote Sensing Data [9]

      图  2  多模态数据融合策略

      Figure 2.  Multimodal Data Fusion Strategy

      为了更好地提取RGB-DSM图像的特征,解决主数据源及辅助数据源数据分配不均的问题,本文提出了一种虚拟分支融合单元,对主数据源和辅助数据源进行一次卷积运算,从而产生一种虚拟模态。将该虚拟模态作为融合数据源之一,将DSM分支提取的特征和RGB分支提取的特征进行融合。如图 2(b)所示,通过这种方法调整FuseNet结构,使其在一定程度上可以解决对主数据源和辅助数据源进行选择的问题,以解决数据处理不均衡的问题。另外,为解决解码过程中只使用主分支编码时产生的索引进行上采样的问题,本文将虚拟分支融合单元中最大池化操作产生的索引应用于解码阶段的上采样,从而提高语义分割的精度。

    • 空洞卷积[11]是在不减少图像尺寸的同时获得比较大的感受野,所以其主要优势在于允许灵活地调整感受野的大小来捕获多尺度信息,提高多目标分类和分割任务的性能[12]。二维空洞卷积算子定义为:

      gi,j(x𝓁)=c=0C𝓁θk,ri,j*x𝓁c ]]>

      式中,gij是对输入特征图的卷积操作RH𝓁×W𝓁×C𝓁RH𝓁+1×W𝓁+1;*表示卷积算子;x𝓁RH𝓁×W𝓁×C𝓁为在第i行和第j列中属于通道c{0, 1,2C𝓁}的特征图;θk,r为卷积核大小为k和扩张率为rZ+的空洞卷积。在空洞卷积中,卷积核大小k增加为k+(k-1)(r-1),当r=1时,空洞卷积相当于标准卷积。标准卷积的卷积层感受野与之前所有层卷积核的大小和步长有关,感受野呈线性增长,而空洞卷积感受野为(2r+1-1)×(2r+1-1),因此空洞卷积的级联可以实现感受野呈指数增长,使得每个卷积输出都包含较多的信息。

    • 本文使用编码器-解码器作为基本网络结构,如图 3所示。编码器-解码器是一种输出近似于输入的网络结构。因此,在影像分割阶段,原始图像分辨率与分割图像分辨率保持一致。解码器能够使用反池化操作对特征图进行上采样,因此可使输出图像分辨率逼近输入图像分辨率。编码器部分采用VGG- 16架构,包含5个卷积模块,每个卷积模块分别包含2个或者3个卷积核为3×3的卷积层,然后利用池化核为2×2的最大池化层对每个卷积模块提取的特征进行特征降维。每个卷积层中均使用修正线性单元(rectified linear unit,ReLU)作为激活函数,并利用批归一化(batch normalization,BN)使数据服从正态分布。

      图  3  结合空洞卷积的FuseNet变体网络结构

      Figure 3.  Structure of Improved Network Based on FuseNet and Atrous Convolution

      解码器则是执行上采样和分类的过程。上采样是将编码后的特征图恢复到原始空间分辨率,在解码过程中池化层被反池化层替换,反池化是根据最大池化过程中的索引从较小的特征图映射到一个零填充的上采样特征图。如图 4所示,给定一个特征图,定义其大小为4×4,步长为2,通过最大池化操作得到特征图以及特征图中各值在原特征图中的索引。反池化操作是根据索引和特征图进行补0,这种反池化操作将抽象特征转换为几何特征。在反池化操作后,卷积块增加稀疏特征图的密度。重复此过程,直到特征图与输入分辨率一致。相比于其他网络结构,降采样操作会丢失细节信息,虽然底层特征具有丰富细节,但判别能力较弱,使得网络对小目标地物的分割性能较差。编码器-解码器结构中通过将上采样操作与跳跃连接相结合,利用反池化操作把浅层信息和高层信息融合,一定程度上缓解了细节丢失问题,使得该基本结构对于分割小目标地物效果也较好。

      图  4  最大池化和反池化操作对4×4特征图的影响

      Figure 4.  Influence of Max Pooling and Unpooling Operation on 4×4 Characteristic Pattern

      在编码器-解码器的特征图处理过程中,如果空间分辨率一致,则可以直接通过跳跃连接进行特征融合;如果空间分辨率不一致,则将输入特征图通过1×1的卷积核投影成与输出特征图相同的维度。为了保持空间分辨率不变,本文提出的网络保留了初始2×2的最大池化,但需将所有卷积的步长减小为1。为了将特征图恢复到原始分辨率,反池化操作后进行标准卷积操作。最后计算损失函数L,并在像素块上取均值。L的计算公式为:

      L=1Ni=1Nj=1kyjilgexp(zji)l=1kexp(zli) ]]>

      式中,N为输入图像的像素个数;k为类的个数;对于特定像素iyji表示像素i属于第j类标签;zji表示像素损失预测值。本文在不进行任何空间正则化的情况下,将平均逐像素分类损失降到最低。此外,本文算法不使用任何影像后处理过程,提高了计算速度。

    • 本文在国际摄影测量与遥感学会(International Society for Photogrammetry and Remote Sensing,ISPRS) [13]航空影像Vaihingen数据集和Potsdam数据集上验证所提出算法的可行性。分别对建筑、不透水域表面(如道路)、低矮植被、树木、汽车和杂波等6个类别的地物进行语义分割。实验中,杂波的像素面积仅占总影像像素的0.88%。

      Vaihingen数据集是由33张航拍影像组成的,采集于德国Vaihingen市1.38 km2的区域内。每幅影像的平均大小为2 494×2 064像素,空间分辨率为9 cm,含3个波段:近红外(near infrared,NIR)、红(red,R)、绿(green,G)波段。影像中提供物体表面高度的DSM作为补充数据。本文选择29幅影像进行训练,4幅影像进行测试。

      Potsdam数据集由38幅高分辨率航拍影像组成,其中24幅影像包含真实标签,覆盖面积3.42 km2,每幅航拍影像由4个波段组成,分别为NIR、R、G、蓝(blue,B),本文使用NIR、R、G波段。影像的大小为6 000×6 000像素,以6个类别的像素级标签作为标注,空间分辨率为5 cm,同样有DSM补充数据。实验中选择20幅影像进行训练,4幅影像进行测试。

    • 数据增强的目的是生成新的样本实例。当训练样本较少时,数据增强对提高网络的泛化能力起到关键性的作用。在Potsdam数据集中对高分辨率遥感影像随机裁剪,得到5 000个大小为256×256像素的图像块,并通过旋转、缩放等操作扩充数据集的规模,用于IFA-CNN网络的训练,从而增强网络的泛化能力。本文使用的高分辨率遥感影像的所有波段(NIR、R、G)都被标准化在[0,1]区间内。

      神经网络的参数和激活函数通常初始化为[0,1]之间的随机数,需要采用标准化方法避免梯度爆炸、梯度弥散情况的出现。Z分数标准化方法[14]将输入图像的像素值逼近于正态分布,有利于提高网络收敛速度。标准化公式为:

      Xout=X/max(X)-λσ ]]>

      式中,Xout为输出值;X为输入值;max(X)为输入最大值;λσ分别为X/max(X)的均值和标准差。

    • 由于本文使用的数据集是高分辨率遥感影像数据集,无法在深层网络中直接处理,因此使用滑动窗口的方法来提取256×256像素的小块。滑动窗口的步长也定义了两个连续小块之间重叠区域的大小。在训练时,较小的步长可以提取更多的训练样本,起到数据扩充的作用,所以将Vaihingen数据集和Potsdam数据集的步长分别设定为64像素和32像素。在测试时,较小的步长允许对重叠区域进行平均预测,以提高整体精度,本文分别使用32像素步长和16像素步长滑动窗口对Vaihingen数据集和Potsdam数据集中的测试图像提取256×256像素的小块。

      本文设置初始学习率为0.01,每隔5个迭代次数将学习率除以10直至0.000 01;动量参数为0.9,权重衰减为0.000 5,批归一化大小为10。对于编码器-解码器结构,采用迁移学习的方法利用ImageNet数据集上训练好的VGG-16的权值作为本文初始化编码器的权值,并随机初始化解码器的权值,有效缩短了模型的训练时间。将初始化后权值的学习率设定为新权值学习率的一半,并在每个数据集上对结果进行交叉验证。本文提出的深度学习网络的损失值曲线如图 5所示,图 5(a)为Vaihingen数据集在网络训练过程中的损失值曲线,在25 000次迭代后基本处于收敛状态,但当损失值第一次收敛趋近0.25时,损失曲线突然上升,其原因为后期训练中学习率相对过大。图 5(b)为Potsdam数据集在网络训练过程中的损失值曲线。

      图  5  损失值曲线

      Figure 5.  Loss Curve

    • 本文使用F1得分评估深度学习网络的性能,其计算公式为:

      P=TP/TP+FP ]]>
      R=TP/TP+FN ]]>
      mF1=2PR/P+R ]]>

      式中,TP为真正例,表示预测值为1,真实值为1;FP为假正例,表示预测值为1,真实值为0;FN为假反例,表示预测值为0,真实值为1;P为预测正确的正例数占预测为正例总量的比率,即查准率;R为预测正确的正例数占真正的正例数的比率,即查全率。本文实验中,通过计算F1得分的平均值mF1评估网络的分割准确率,mF1的值越大,表示网络性能越好,且分割准确率越高。

      此外,本文还利用总体精度(overall accuracy,OA)评估算法的分割准确率。OA的计算公式为:

      OA=TP+TNTP+FP+TN+FN ]]>

      式中,OA为OA值;TN为真反例,表示预测值为0,真实值为0。

    • 本文算法(IFA-CNN)得到的部分实验数据结果与真实标签之间的对比如图 6所示。可以看出,IFA-CNN在整体上得到了比较理想的分割结果,尤其是对较大目标地物的分类效果很好,但在图像中也存在一些分割错误的区域。对比Vaihingen分割图像与真实标签可以看出,分割错误的区域较少,分割效果较好;但在Potsdam数据集的分割图像中出现了小块区域分割效果不佳的情况,主要原因为Potsdam数据集地物分布较复杂,且模糊区域较多,而Vaihingen数据集地物分布较均匀,分割难度较低。

      图  6  ISPRS Vaihingen和Potsdam数据集的分割结果

      Figure 6.  Segmentation Results of ISPRS Vaihingen and Potsdam Dataset

      表 1为本文算法在ISPRS Vaihingen和Potsdam测试集上的分割准确率计算结果。可以看出,本文算法取得了不错的分割结果。本文提出的网络与文献[8]中的FuseNet网络在Vaihingen数据集和Potsdam数据集上分别进行实验对比,实验结果如表 2表 3所示。在实验中,除融合单元部分不同外,其他网络结构部分一致。可以看出,本文多模态数据融合策略中使用的虚拟分支融合(virtual fusion,V-Fusion)单元对各类别地物的分割准确率均高于FuseNet网络的融合单元,进一步证明了虚拟分支融合单元解决了数据分配不均的问题,它将DSM分支提取的特征与RGB分支提取的特征在此单元进行融合,更好地提取RGB-DSM图像的特征,因此添加虚拟分支融合单元的FuseNet网络分割准确率更高。

      表 1  ISPRS Vaihingen和Potsdam数据集的分割准确率

      Table 1.  Segmentation Accuracy Results on ISPRS Vaihingen and Potsdam Dataset

      数据集 F1得分 OA 平均F1得分
      建筑 树木 低矮植被 不透水域表面 汽车
      Vaihingen 0.955 0.921 0.836 0.937 0.871 0.915 0.904
      Potsdam 0.956 0.864 0.906 0.917 0.939 0.909 0.916

      表 2  V-Fusion单元与Fusion单元在Vaihingen数据集上的分割准确率比较

      Table 2.  Comparison of Segmentation Accuracy Between V-Fusion Unit and Fusion Unit on Vaihingen Dataset

      FuseNet网络 F1得分 OA 平均F1得分
      建筑 树木 低矮植被 不透水域表面 汽车
      Fusion单元 0.939 0.846 0.833 0.911 0.853 0.898 0.876
      V-Fusion单元 0.955 0.921 0.836 0.937 0.871 0.915 0.904

      表 3  V-Fusion单元与Fusion单元在Potsdam数据集上的分割准确率比较

      Table 3.  Comparison of Segmentation Accuracy Between V-Fusion Unit and Fusion Unit on Potsdam Dataset

      FuseNet网络 F1得分 OA 平均F1得分
      建筑 树木 低矮植被 不透水域表面 汽车
      Fusion单元 0.942 0.863 0.828 0.909 0.930 0.882 0.894
      V-Fusion单元 0.956 0.864 0.906 0.917 0.939 0.909 0.916

      为探索使用编码器-解码器结构对小目标地物分割准确率的影响,采用本文提出的网络与文献[15-17]中的网络在Vaihingen数据集上进行实验对比,与文献[718-19]中的网络在Potsdam数据集上进行实验对比,实验结果如表 4表 5所示。可以看出,IFA-CNN采用的编码器-解码器结构对于汽车及低矮植被这两类小目标地物的分割准确率均高于非编码器-解码器结构网络的。由于小目标地物的细节信息较少,相比于其他网络结构,编码器-解码器结构在编码过程中能够较好地提取高分辨率遥感影像的语义特征,并在解码过程中通过反卷积将特征有效恢复为语义分割预测图,还原小目标地物的语义特征,减少细节信息的丢失。

      表 4  Vaihingen数据集上IFA-CNN与非编码器-解码器结构网络对小目标地物分割准确率比较

      Table 4.  Comparison of Segmentation Accuracy for Small Objects Between IFA-CNN and Non-Encoder-Decoder Network on Vaihingen Dataset

      类别 F1得分
      UOA[15] ADL_3[16] DST_2[17] IFA-CNN
      汽车 0.820 0.633 0.726 0.871
      低矮植被 0.804 0.823 0.834 0.836

      表 5  Potsdam数据集上IFA-CNN与非编码器-解码器结构网络对小目标地物分割的准确率比较

      Table 5.  Comparison of the Segmentation Accuracy for Small Objects Between IFA-CNN and Non-Encoder-Decoder Network on Potsdam Dataset

      类别 F1得分
      FCN[7] SCNN[18] RGB+ Iensembel[19] IFA-CNN
      汽车 0.893 0.912 0.892 0.939
      低矮植被 0.800 0.837 0.822 0.906

      为验证本文算法的有效性,对IFA-CNN与其他方法在ISPRS数据集上进行实验对比,结果如表 6表 7所示。表 6为在Vaihingen数据集上IFA-CNN与文献[1620-21]算法的分割准确率对比,IFA-CNN无论从平均F1得分还是OA都取得了比较理想的结果。特别是树木类别的F1得分比文献[20-21]提高了0.22%,汽车类别的F1得分比文献[21]提高了0.47%。表 7为在Potsdam数据集上IFA-CNN与文献[1922-24]算法的分割准确率对比,IFA-CNN除汽车的分割准确率略低于文献[24],不透水域表面的分割准确率与文献[22]算法持平,其余类别地物的分割准确率均高于其他算法。另外,IFA-CNN的OA和平均F1得分均高于其他算法,证明了IFA-CNN的有效性。

      表 6  本文方法与其他方法在Vaihingen上的分割准确率对比

      Table 6.  Comparison of the Accuracy of the Proposed Method with Other Methods on Vaihingen Dataset

      模型 F1得分 OA 平均F1得分
      建筑 树木 低矮植被 不透水域表面 汽车
      ADL_3[16] 0.932 0.882 0.823 0.895 0.633 0.880 0.833
      ONE_7[20] 0.945 0.899 0.844 0.910 0.778 0.898 0.875
      GSN[21] 0.951 0.899 0.837 0.922 0.824 0.903 0.887
      IFA-CNN 0.955 0.921 0.836 0.937 0.871 0.915 0.904

      表 7  本文方法与其他方法在Potsdam上的分割准确率对比

      Table 7.  Comparison of the Accuracy of the Proposed Method with Other Methods on Potsdam Dataset

      模型 F1得分 OA 平均F1得分
      建筑 树木 低矮植被 不透水域表面 汽车
      RiFCN[22] 0.930 0.819 0.837 0.917 0.937 0.883 0.861
      RGB+I-ensemble[19] 0.936 0.845 0.822 0.870 0.892 0.900 0.873
      Hallucination[23] 0.938 0.848 0.821 0.873 0.882 0.901 0.872
      S-RA-FCN[24] 0.947 0.835 0.868 0.913 0.945 0.886 0.880
      IFA-CNN 0.956 0.864 0.906 0.917 0.939 0.909 0.916

      表 6表 7可知,IFA-CNN在Vaihingen数据集和Potsdam数据集上,对各类别地物的分割效果都有着较好的表现。相较于其他算法,IFA-CNN的优点在于多个模式之间的互补性得到了更有效的利用,联合特征明显增强,更适用于将较弱的辅助数据(如DSM数据)集成到主学习网络中,并且虚拟分支融合单元很好地解决了特征融合效果不佳的问题。此外,由于IFA-CNN使用了多模态数据融合方案,同时空洞卷积通过扩大感受野的大小来捕获多尺度信息,提高了多目标分割任务的性能,所以IFA-CNN网络更好地提高了各类别地物的分割准确率。

      为使实验更具科学性,将IFA-CNN与网络结构为编码器-解码器且使用DSM数据的文献进行影像分割细节对比,实验结果如图 7所示。图 7中,第1列为输入遥感影像的局部细节,第2列为局部DSM细节,第3列为局部真实标签。图 7(a)中,IFA-CNN与ONE_7[20]和GSN[21]的分割细节实例相比,IFA-CNN有效改善了分割影像中的边缘毛刺、细化类的边界,使得目标边缘更加接近场景的真实边缘。在图 7(b)中,IFA-CNN与RiFCN[22]和S-RA-FCN[24]相比,对建筑、树木等较大目标地物的分割更加准确,有效地减少了误分割现象,阴影覆盖区域部分分割效果也较为理想。

      图  7  ISPRS Vaihingen和Potsdam数据集分割实例细节对比

      Figure 7.  Comparison of Detailed Segmentation Results on ISPRS Vaihingen and Potsdam Dataset

    • 本文提出了一种结合空洞卷积的FuseNet变体深度学习网络架构,实现了高分辨率遥感影像语义分割。FuseNet变体的多模态数据融合可以使网络学习到更强的特征并有效地利用异构数据的互补性,将高分辨率遥感影像的DSM信息与RGB信息融合。在编码器-解码器架构中使用了跳跃连接,将高级特征与低级特征结合,使网络的整体分割精度提高。感受野在编码器-解码器部分均使用了空洞卷积,采用大滤波器的转置卷积进行上采样,获得了更大的接受域。

      在公开数据集ISPRS Vaihingen和Potsdam上进行了实验,并与相关文献方法进行对比,实验结果表明本文所提出的IFA-CNN取得了较好的分割准确率。然而,本文方法仍存在改进的空间。一方面,对于高分辨率遥感影像的边缘还存在分割不准确的情况;另一方面,尝试在保证分割准确率的情况下减少网络层数,提高网络运算效率。

参考文献 (24)

目录

    /

    返回文章
    返回