面向高分影像建筑物提取的多层次特征融合网络

李星华, 白学辰, 李正军, 左芝勇

李星华, 白学辰, 李正军, 左芝勇. 面向高分影像建筑物提取的多层次特征融合网络[J]. 武汉大学学报 ( 信息科学版), 2022, 47(8): 1236-1244. DOI: 10.13203/j.whugis20210506
引用本文: 李星华, 白学辰, 李正军, 左芝勇. 面向高分影像建筑物提取的多层次特征融合网络[J]. 武汉大学学报 ( 信息科学版), 2022, 47(8): 1236-1244. DOI: 10.13203/j.whugis20210506
LI Xinghua, BAI Xuechen, LI Zhengjun, ZUO Zhiyong. High-Resolution Image Building Extraction Based on Multi-level Feature Fusion Network[J]. Geomatics and Information Science of Wuhan University, 2022, 47(8): 1236-1244. DOI: 10.13203/j.whugis20210506
Citation: LI Xinghua, BAI Xuechen, LI Zhengjun, ZUO Zhiyong. High-Resolution Image Building Extraction Based on Multi-level Feature Fusion Network[J]. Geomatics and Information Science of Wuhan University, 2022, 47(8): 1236-1244. DOI: 10.13203/j.whugis20210506

面向高分影像建筑物提取的多层次特征融合网络

基金项目: 

国家自然科学基金 42171302

详细信息
    作者简介:

    李星华,博士,副教授,研究方向为多时相遥感。lixinghua5540@whu.edu.cn

    通讯作者:

    左芝勇,博士, 高级工程师。azuo19850524@163.com

  • 中图分类号: P237

High-Resolution Image Building Extraction Based on Multi-level Feature Fusion Network

Funds: 

The National Natural Science Foundation of China 42171302

More Information
    Author Bio:

    LI Xinghua, PhD, associate professor, specializes in multi-temporal remote sensing. E-mail: lixinghua5540@whu.edu.cn

    Corresponding author:

    ZUO Zhiyong: ZUO Zhiying, PhD, senior engineer. E-mail: azuo19850524@163.com

  • 摘要: 建筑物规模及其分布是衡量一个地区经济社会发展状况的关键指标,因此研究基于遥感影像的建筑物提取具有重要意义。现有神经网络方法在建筑物提取的完整度、边缘精确度等方面仍存在不足,由此提出一种基于高分遥感影像的多层次特征融合网络(multi-level feature fusion network,MFFNet)。首先,利用边缘检测算子提升网络对建筑物边界的识别能力,同时借助多路径卷积融合模块多个维度提取建筑物特征,并引入大感受野卷积模块解决感受野大小对特征提取的限制问题;然后,对提取的特征进行融合,利用卷积注意力模块进行压缩,经金字塔池化进一步挖掘全局特征,从而实现建筑物的高精度提取。并与当前主流的UNet、PSPNet(pyramid scene parsing network)、多路径特征融合网络(multi attending path neural network, MAPNet)和MDNNet(multiscale-feature fusion deep neural networks with dilated convolution)方法进行对比,使用亚米级的武汉大学航空影像数据集、卫星数据集II(东亚)与Inria航空影像数据集作为实验数据进行测试, 结果发现,所提方法提取出的建筑物更为完整,边界更加精确。
    Abstract:
      Objectives  The scale of buildings and their distribution is key indicators to measure the economic and social development of a region. Therefore, it is significant to study the extraction of buildings based on remote sensing images. Existing neural network methods still have shortcomings in the completeness of building extraction and the accuracy of building edges. To solve the above problems, this paper proposes a multi-level feature fusion network (MFFNet) based on high-resolution images.
      Methods  Firstly, we use edge detection operators to improve the ability of the network to recognize the boundaries of buildings. Secondly, we use a multi-path convolution fusion module to extract building features from multiple dimensions, and introduce a large receptive field convolution module to break through feature extraction. The process is limited by the size of the receptive field. After fusing the extracted features, the convolutional attention module is used to compress them, and the global features are further mined by pyramid pooling, so as to achieve high-precision extraction of buildings.
      Results  The current mainstream UNet, pyramid scene parsing network (PSPNet), multi attending path neural network (MAPNet) and multiscale-feature fusion deep neural networks with dilated convolution (MDNNet)are used as the comparison methods, and we use Wuhan University Aerial Image Dataset, Satellite Dataset II (East Asia) and Inria Aerial Image Dataset as experimental data for testing. Compared with the other four methods, MFFNet improves intersection over union, precision, recall, F1-score and mean average precision by 1.53%, 2.65%, 2.41%, 3.32% and 1.19% on average, achieves a better effect.
      Conclusions  MFFNet not only accurately captures the detail features of buildings, but also strengthens the extraction and utilization of global features. It has better extraction effect on large buildings and buildings in complex environment.
  • 建筑物自动提取对于城市经济发展、土地利用分析、空间布局规划具有极为重要的价值。近年来,高分辨率星载/机载技术愈发成熟,从影像上进行建筑物高精度的位置确定、范围勾画逐渐成为可能。然而,由于建筑材料及其形状的不同,高分影像中建筑物内部特征复杂且差异较大,难以完整提取。另外,建筑物周边环境复杂,其他人工地物干扰较多,容易造成误分类。因此,建筑物的准确提取仍然面临巨大挑战。

    从遥感影像上提取建筑物的研究起步较早,传统方法主要包括基于像元方法与面向对象方法两类。前者聚焦于单一或者少量邻近像元,通过分析地物光谱、纹理等特征进行分类,其中贝叶斯分类[1]、支持向量机(support vector machines,SVM)[2]等方法应用较为广泛。后者的最小分析单位为地物斑块,利用地物斑块的形状、纹理、拓扑关系等特征提取建筑物。例如,文献[3]利用阴影与建筑物的空间关系提取建筑物,效果较好;文献[4]提出了形态学建筑物指数,提取的完整度更高。然而,在高空间分辨率影像中,建筑物内部特征的空间破碎度更加明显,类内差异增大、类间特征混杂,传统方法难以解决不同光照、成像条件下的建筑物提取问题。随着激光雷达(light detection and ranging,LiDAR)技术的发展,从点云中获取地物信息也成为一种重要途径。文献[5-6]从点云中提取的建筑物轮廓线完整、精度高,但是LiDAR数据获取成本高、难度大,难以应用在大范围建筑物提取上。

    近年来,深度学习发展迅速,在建筑物提取上也取得了较好的效果,主要有卷积神经网络(convolutional neural networks,CNN)、全卷积神经网络(fully convolutional networks,FCN)及其改进方法。文献[7]首次将CNN用于建筑物提取,随后其改进方法不断涌现。文献[8]提出ResNet网络结构,解决了深层CNN中梯度爆炸的问题,为更深层次网络提供了方案;文献[9]使用条件随机场(conditional random fields,CRF)在后处理中优化建筑物边缘,改善了建筑物边界提取效果;文献[10]改进了CNN语义密集的问题,设计了一个语义分割框架,可以适应不同分辨率的特征;文献[11]在CVPR(computer vision and pattern recognition conference)会议上提出FCN,开辟了语义分割领域的新道路;文献[12]对FCN进行改进,利用拓扑图的空间特征进行语义分割,提出图卷积神经网络(graph convolutional networks,GCN);由编码器、解码器与像元级分类器组成的深度卷积网络SegNet[13]在效率与效果上均取得了较大提升。

    神经网络方法众多,目前使用CNN提取建筑物仍是主流之一。在以往的研究中,利用CNN提取建筑物主要基于编码器-解码器结构,编码器阶段提取影像特征,解码器阶段恢复影像细节,但是浅层特征不足以支持对小型建筑物的提取,同时也难以准确划定建筑物边界,即特征利用效率低,而多尺度网络思想[14]大大提升了图像特征的利用率。文献[15]提出的多路径特征融合网络(multi attending path neural network,MAPNet)较好地解决了该问题,但因其感受野尺寸单一,提取效果仍然会受大型建筑物内部丰富细节的影响,使网络过多关注局部特征,难以从全局感知特征,从而导致提取的大型建筑物出现孔洞,连续性、完整性较差。另外,在多路径融合阶段,该网络在所有路径上进行特征融合,存在融合跨度过大的问题,稀释了路径内部提取的特征,对建筑物的准确识别造成不利影响。

    为解决上述问题,本文使用多路径卷积融合模块与大感受野特征感知模块,设计一种多层次特征融合网络(multi-level feature fusion network,MFFNet),提升高分辨率遥感影像的建筑物提取精度。

    MFFNet的核心思想是在多个维度上提取影像特征,精确捕捉建筑物的细节特征,并且注重对全局信息的充分利用。MFFNet结构如图 1所示,主要包含3个部分:(1)预处理部分:边缘检测算子;(2)特征提取部分:多路径卷积融合模块、大感受野特征感知模块;(3)后处理部分:卷积注意力模块、金字塔池化增强模块。

    图  1  多层次特征融合网络结构
    Figure  1.  Structure of MFFNet

    首先利用边缘检测算子提取边缘,将其标记为一个新的通道加入到原始影像中,然后通过随机旋转与镜像翻转操作扩充样本。大感受野卷积模块主要在于扩大特征感知范围,在更大范围内提取建筑物整体特征,抑制建筑物内部孔洞,改善大型建筑物提取效果。在利用多尺度特征提取方法全面提取影像多层级特征的同时,在层级间优化融合机制,通过相邻层级间特征融合实现多层次并行特征提取,解决网络大跨度层级间的特征干扰问题。多路径卷积融合模块主要包含3个阶段,每一阶段将相邻两路径融合,通过下采样生成新的路径,共计3条路径,在提取高级语义的同时保留其精确位置信息。卷积注意力模块[16](convolutional block attention module,CBAM)是在通道注意力(channel attention module,CAM)机制的基础上加入空间注意力(spatial attention module,SAM)机制,用于去除冗余特征。最后,使用全局池化增强模块整合全局空间信息,防止过拟合的同时提升方法鲁棒性。

    特征提取阶段由多路径卷积融合模块与大感受野特征感知模块组成,前者提取影像深层特征,并且记录位置信息;后者通过大感受野提取广域影像特征,减少局部特征对建筑物完整性的干扰。

    多路径卷积融合模块建立了多条特征提取路径,具有不同的特征提取深度。深度较小的路径保持更高的空间分辨率,并且具有更多精细的空间位置信息;深度较大的路径提取更深层次的特征信息。该模块由3个阶段组成,每个阶段实现本路径的特征提取与相邻路径特征融合,随后生成更深层次的新路径。

    大跨度路径间的特征提取重点差异较大,跨多路径特征融合会稀释本路径的特征,故在融合过程中特征融合仅在相邻路径间进行。由于不同路径中的特征图具有不同的分辨率与通道数,在融合前需要设计不同的卷积块对其进行统一。令H为特征图的高度,W为特征图的宽度,C为特征图的层数,深层路径向浅层路径的融合方法如图 2(a)所示,深层特征图通过卷积块扩充通道数,以双线性插值重采样至2倍大小,然后通过像素加法进行融合。浅层路径向深层路径的融合方法如图 2(b)所示,在卷积后使用最大池化层实现下采样,然后与深层特征图融合。

    图  2  路径融合
    Figure  2.  Path Fusion

    为了提高特征提取效率,当前阶段结束后将生成新路径,其生成方式如图 3所示。浅层路径中的特征图经批归一化(batch normalization,BN)与ReLU函数处理后,通过卷积块生成更深层次的新路径。卷积步长为2,新路径特征图的分辨率为原路径的1/2。

    图  3  新路径生成方式
    Figure  3.  Generation of a New Path

    大感受野特征感知模块由4个残差块和一个15×15的卷积块组成。残差块先执行BN与ReLU,然后由3×3卷积块提取特征,重复4次后使用15×15卷积块在大感受野上整合特征,以保证建筑物特征在空间上的完整性。多路径卷积融合模块中3条路径的特征图与大感受野路径的特征图大小分别为128、64、32、128。为了增强视觉效果,将其缩放至同一尺寸,各路径特征提取效果如图 4所示。

    图  4  各路径产出的建筑物特征
    Figure  4.  Building Feature Maps Produced by Each Path

    图 4可知,原始影像经过预处理,凸显部分浅层特征。在多路径特征提取过程中,每条路径中的特征图分辨率固定不变,浅层路径执行3个阶段的特征提取,具有高级语义信息与更加准确的空间位置信息;中间路径执行两个阶段的特征提取,处于浅层路径与深层路径之间,可以防止深浅路径间的特征干扰,起到缓冲作用;深层路径执行一个阶段的特征提取,空间分辨率较低,用于捕获全局语义信息。大感受野路径则从更大范围上对语义提取信息,保证建筑物的完整性。将各个路径语义信息融合后,得到高识别度的建筑物特征信息,各维度特征的重要程度不尽相同,需要后续进行特征精简。

    为了使多通道提取的海量特征具有更高的信息量,自动筛选特征图中更需要注意的位置,本文使用卷积注意力模块在通道与空间上对特征图进行打分,减少参数与计算量。首先在特征图中对通道与空间两个单独的维度依次生成注意力映射得分,然后乘入特征图中,实现特征自适应压缩。CBAM由两通道注意力机制与空间注意力机制部分组成。

    原始特征图中每一个通道都可被认为是一种特征检测结果,维度为H×W×C,记为F0。通道注意力机制利用特征图中通道间的关系,使用平均池化模块与最大池化模块压缩原始特征图通道,得到两种通道注意力向量,分别记为FavgcFmaxc,维数为1×1×C,该向量记录了原始特征图中每一通道的重要程度。将两组向量输入到两层神经网络(multi-layer perceptron,MLP)中,得到两组C×1×1的向量,将其数值加和后通过Sigmoid函数生成通道注意力向量,记为Mc,计算如下:

    Mc=SigmoidMLPFavgc+MLPFmaxc

    Mc乘入原始特征图中,得到含有通道特征打分的特征图,维度为H×W×C,记为F1。将F1使用空间注意力机制处理,首先进行基于通道的全局最大池化与全局平均池化,得到两个H×W×1的特征图,分别记为FavgsFmaxs;然后将这两个特征图拼接为二通道特征图,再经过7×7卷积降维,使用Sigmoid得到空间注意力向量,记为Ms,计算如下:

    Ms=Sigmoidconv7×7Favgs;Fmaxs

    最后将MsF1相乘,得到最终的特征图,记为Ffinall,计算如下:

    Ffinall=F0×Mc×Ms

    为了防止提取的特征受局部感受野限制,提升全局特征的利用效果,本文使用金字塔池化模块,根据维度设置4个大小不同的池化层进一步增强全局依赖,并加入到原始特征图中,完成全局空间增强,过程如图 5所示。该模块可以在空间上捕获全局特征,防止过度关注局部特征,有利于建筑物的完整提取。

    图  5  卷积注意力模块
    Figure  5.  Convolutional Block Attention Module

    为了确保MFFNet实现像素级建筑物的二分类,本文使用Sigmoid交叉熵损失函数计算Loss值:

    Loss=avgLossij
    Lossij=-yij·lnpij+1-yij·ln1-pij
    pij=11+e-predictij

    式中,Lossij表示影像上坐标为(i,j)处的损失值;yij表示地面真值,取值为0~1;predictij表示网络预测结果;为了保证pij[0, 1],使用Sigmoid函数对predictij进行处理。

    本文选用分辨率亚米级别的武汉大学航空影像数据集(WHU)、卫星数据集II(东亚)、Inria航空影像数据集,网络训练数据在各数据集中随机选取,其基本参数以及训练集、验证集与测试集分配如表 1所示。

    表  1  数据集基本参数与训练分配
    Table  1.  Basic Parameters and Training Assignment of Datasets
    数据集 分辨率/m 图块尺寸/像素 训练集/张 验证集/张 测试集/张
    WHU 0.30 512×512 1 500 200 500
    卫星数据集II(东亚) 0.45 512×512 1 000 200 400
    Inria航空影像数据集 0.30 512×512 1 500 200 500
    下载: 导出CSV 
    | 显示表格

    武汉大学航空影像数据集[17]是当前国际上范围最大、样本种类最多的建筑物数据集,在规模、分辨率、准确度等多个指标上超越了目前国际主流的建筑物数据集,原始地面分辨率为0.075 m。考虑到当前GPU的性能,本文将其下采样为0.3 m,并裁剪成8 189个图块。

    卫星数据集II(东亚)由成像区域相邻的6张卫星影像拼接而成,共裁剪为17 388个图块。由于6张影像的成像季节、时间、条件不同,该数据集存在辐射差异,可以评估深度学习方法对同一地理区域内不同数据源但具有相似风格的泛化能力。在进行卫星数据集II(东亚)的实验时,有意给予网络较少的训练影像,以便于测试网络的泛化能力。

    Inria航空影像数据集[18]的原始数据取自美国与奥地利的航空影像,涵盖了建筑物密集的中心城区与地貌复杂的山区,成像范围包含华盛顿贝灵厄姆、旧金山、芝加哥、维也纳与蒂罗尔等10个城市与地区。原始影像具有不同的通道数与分辨率,例如美国华盛顿地区影像包含红(red,R)、绿(green,G)、蓝(blue,B)、近红外光(near infrared,NIR)四波段,原始分辨率为0.15 m;而维也纳地区影像只包含R、G、B三波段,原始分辨率为0.2 m或0.1 m。本文选取波段公因子,将所有影像重采样为0.3 m。在实验中将其无缝裁剪为14 579张512×512像素的图块,从中随机选取部分影像进行训练。

    目前常用的评价指标主要有像元级评价与对象级评价两类。像元级评价主要以像元为最小单位,计算正确分类与错误分类的像元个数。对象级评价以建筑物为最小评价单位,在一个建筑物范围内,当预测值与真值的交集大于阈值时,认为该建筑物被正确提取。本文使用像元级评价标准,从准确率P、召回率RF1分数、交并比(intersection over union,IoU)、平均精度均值(mean average precision,mAP)5个维度评价各方法的提取效果。各评价指标的计算如下:

    P=TPTP+FP×100%
    R=TPTP+FN×100%
    F1=2PRP+R×100%
    IoU=PRP+R-PR×100%
    mAP=1N·k=1Nmaxk˜>kPk˜·ΔRk×100%

    式中,TP(truepositive)为正样本预测为真的像元个数;FP(falsepositive)为正样本预测为假的像元个数;FN(falsenegative)为负样本预测为假的像素个数;N为测试样本数。

    为了检验MFFNet的建筑物提取效果,引入目前性能较好、应用广泛的MAPNet、UNet[19]、PSPNet(pyramid scene parsing network)[20]、MDNNet(multiscale-feature fusion deep neural networks with dilated convolution)[21]作为对比方法,其中MAPNet与MDNNet专门用于建筑物提取。5种网络分别在3个数据集上进行测试,使用相同的训练集、验证集与测试集,设置相同的网络初始参数:批尺寸为4,学习速率为0.001,迭代次数为60,网络初始化迭代次数为20。本文实验使用Ubuntu18.04操作系统,利用TensorFlow-GPU1.10搭建深度学习框架,训练使用的GPU型号为Quadro RTX 5000,显存16 GB。

    由于MFFNet提取效果受多路径卷积融合模块中路径数量与大感受野模块中感受野尺寸的影响,本文首先测试不同参数对提取效果的影响。分别在路径取1、2、3、4,感受野尺寸取7、11、15、19的条件下进行测试,评价指标选择IoU与mAP,实验结果如图 6所示。从图 6中可以看出,单一路径方法在感受野尺寸发生变化时存在较大波动,提取效果不稳定。在多路径模块中,路径数量影响了提取效果,当路径数为3时的提取效果优于路径数为2或4时。大感受野特征感知模块中感受野尺寸取值变大时,可感知更大尺寸的影像特征;当取值为15时,提取效果最好;超过15时,感受野尺寸过大,可能会导致感受野范围内的特征杂糅,不利于建筑物提取。综上,为保证提取效果,路径数量设为3,大感受野模块的感受野尺寸设为15。

    图  6  参数确定实验
    Figure  6.  Determination of Experiment Parameters

    将MAPNet、UNet、PSPNet、MDNNet与MFFNet分别在3个数据集上进行测试,分别选取大型建筑物、密集建筑物图区进行对比,结果如图 7所示。

    图  7  不同方法建筑物提取结果
    Figure  7.  Results of Building Extraction Using Different Methods

    图 7可知,MFFNet在大型建筑物区域的提取结果与地面真值的相似度最高,建筑物内部出现的孔洞较少,建筑物提取最为完整。在密集建筑物区域,由于建筑物间距小、密度大,难以被区分,MFFNet可以保留建筑物精确的位置信息,在密集建筑物的区分上表现较好,提取的建筑物具有更加尖锐的转角;而其他方法出现了较为严重的建筑物粘连问题。图 7结果表明,MFFNet的提取效果明显优于另外4种对比方法。

    为了比较MFFNet和其他4种方法的提取精度,本文在武汉大学航空影像数据集、卫星数据集Ⅱ(东亚)、Inria数据集上进行建筑物提取,统计结果分别如表 2表 3表 4所示。

    表  2  武汉大学航空影像数据集建筑物提取精度/%
    Table  2.  Accuracy of Building Extraction from WHU Aerial Imagery Dataset/%
    方法 IoU P R F1 mAP
    MAPNet[15] 93.67 89.04 93.65 91.29 95.25
    PSPNet[20] 96.23 94.73 94.78 94.76 97.21
    UNet[19] 95.87 95.16 93.04 94.09 96.89
    MDNNet[21] 94.57 93.87 90.37 92.09 95.87
    MFFNet 96.56 95.38 94.93 95.16 97.43
    下载: 导出CSV 
    | 显示表格
    表  3  卫星数据集II(东亚)建筑物提取精度/%
    Table  3.  Accuracy of Building Extraction from Satellite Dataset II (East Asia)/%
    方法 IoU P R F1 mAP
    MAPNet[15] 94.06 87.99 55.95 68.41 94.42
    PSPNet[20] 94.15 82.91 62.34 71.17 94.54
    UNet[19] 94.53 88.57 60.50 71.89 94.89
    MDNNet[21] 88.72 51.57 85.44 64.32 89.76
    MFFNet 94.68 80.45 72.14 76.07 95.10
    下载: 导出CSV 
    | 显示表格
    表  4  Inria航空影像数据集建筑物提取精度/%
    Table  4.  Accuracy of Building Extraction from Inria Aerial Image Labeling Dataset/%
    方法 IoU P R F1 mAP
    MAPNet[15] 91.51 88.94 85.92 87.41 93.44
    PSPNet[20] 90.51 85.52 87.19 86.35 92.70
    UNet[19] 91.92 88.02 88.72 88.37 93.82
    MDNNet[21] 91.51 86.32 89.80 88.03 93.53
    MFFNet 92.47 90.28 87.83 89.04 94.23
    下载: 导出CSV 
    | 显示表格

    由表2~4可知,MFFNet具有更高的得分,相对于MAPNet、UNet、PSPNet、MDNNet,MFFNet在IoU上分别提升了1.55%、0.49%、0.97%、3.11%,在准确率上分别提升了0.59%、-1.43%、1.23%、10.21%;在召回率上分别提升了5.77%、3.68%、3.08%、-2.88%;在F1分数上分别提升了4.15%、1.82%、2.50%、4.81%;在mAP上分别提升了1.26%、0.40%、0.79%、2.33%。

    UNet的分类准确度和定位精度不可兼得,当感受野尺寸较大时,对应池化层的降维倍数将增大,定位精度降低,难以确定建筑物的空间位置。但UNet以网络结构简单著称,在实验过程中耗时最短。PSPNet通过整合不同级别的全局先验知识辅助分类,但是在特征提取阶段却没有针对性地进行多尺度特征提取,故在建筑物边界确定上表现不佳。MAPNet注重对特征进行多尺度提取,但是在特征融合过程中没有对待融合特征的尺度进行限制,导致不同路径间的特征相互干扰,削弱了建筑物提取的效果。MDNNet在ResNet101的基础上引入膨胀卷积,其尺寸不能很好地适应具有复杂形状建筑物的特征,提取效果有待提升。MFFNet在特征提取阶段对建筑物特征进行多尺度提取;在特征融合阶段进行限制,减少不同尺度特征之间的相互干扰;在特征处理阶段引入金字塔池化模块,增强对不同级别特征的使用,故具有最好的提取效果。另外,由于MFFNet引入了卷积注意力模块,大幅减少了特征处理阶段的计算量,在保证准确率的同时具有较高的计算效率。

    在性能上,当训练影像为1 500张、影像大小为512×512像素、批尺寸为4时,MAPNet、PSPNet、UNet、MDNNet、MFFNet完成一个epoch的平均耗时分别为249.52 s、130.53 s、231.40 s、344.92 s、192.24 s,可见MFFNet在性能上表现较好。

    本文使用多路径卷积融合模块与大感受野特征感知模块,设计了一种多层次特征融合网络MFFNet,同时引入卷积注意力模块压缩特征,并使用金字塔池化把握特征,提高了建筑物像素级提取精度,对大型建筑物的完整提取与边界精确划定提供了解决方案。多路径卷积融合模块从3个路径的多个尺度上提取特征,具有精确的空间位置与丰富的深层特征信息。大感受野特征感知模块打破了感受野尺寸限制,从更大范围上捕捉建筑物整体特征,有利于大型建筑物的完整提取。卷积注意力模块从通道与空间两个维度压缩特征,提升了特征语义密度。金字塔池化模块通过4个大小不同的卷积核把握全局特征。与MAPNet、UNet、PSPNet、MDNNet 4种目前先进方法的对比实验表明,MFFNet具有最好的建筑物提取效果。高分影像为地物目标的识别与解译提供了更丰富的特征信息,为进一步提高识别的准确率,可尝试在多维视角上提取地物特征。

  • 图  1   多层次特征融合网络结构

    Figure  1.   Structure of MFFNet

    图  2   路径融合

    Figure  2.   Path Fusion

    图  3   新路径生成方式

    Figure  3.   Generation of a New Path

    图  4   各路径产出的建筑物特征

    Figure  4.   Building Feature Maps Produced by Each Path

    图  5   卷积注意力模块

    Figure  5.   Convolutional Block Attention Module

    图  6   参数确定实验

    Figure  6.   Determination of Experiment Parameters

    图  7   不同方法建筑物提取结果

    Figure  7.   Results of Building Extraction Using Different Methods

    表  1   数据集基本参数与训练分配

    Table  1   Basic Parameters and Training Assignment of Datasets

    数据集 分辨率/m 图块尺寸/像素 训练集/张 验证集/张 测试集/张
    WHU 0.30 512×512 1 500 200 500
    卫星数据集II(东亚) 0.45 512×512 1 000 200 400
    Inria航空影像数据集 0.30 512×512 1 500 200 500
    下载: 导出CSV

    表  2   武汉大学航空影像数据集建筑物提取精度/%

    Table  2   Accuracy of Building Extraction from WHU Aerial Imagery Dataset/%

    方法 IoU P R F1 mAP
    MAPNet[15] 93.67 89.04 93.65 91.29 95.25
    PSPNet[20] 96.23 94.73 94.78 94.76 97.21
    UNet[19] 95.87 95.16 93.04 94.09 96.89
    MDNNet[21] 94.57 93.87 90.37 92.09 95.87
    MFFNet 96.56 95.38 94.93 95.16 97.43
    下载: 导出CSV

    表  3   卫星数据集II(东亚)建筑物提取精度/%

    Table  3   Accuracy of Building Extraction from Satellite Dataset II (East Asia)/%

    方法 IoU P R F1 mAP
    MAPNet[15] 94.06 87.99 55.95 68.41 94.42
    PSPNet[20] 94.15 82.91 62.34 71.17 94.54
    UNet[19] 94.53 88.57 60.50 71.89 94.89
    MDNNet[21] 88.72 51.57 85.44 64.32 89.76
    MFFNet 94.68 80.45 72.14 76.07 95.10
    下载: 导出CSV

    表  4   Inria航空影像数据集建筑物提取精度/%

    Table  4   Accuracy of Building Extraction from Inria Aerial Image Labeling Dataset/%

    方法 IoU P R F1 mAP
    MAPNet[15] 91.51 88.94 85.92 87.41 93.44
    PSPNet[20] 90.51 85.52 87.19 86.35 92.70
    UNet[19] 91.92 88.02 88.72 88.37 93.82
    MDNNet[21] 91.51 86.32 89.80 88.03 93.53
    MFFNet 92.47 90.28 87.83 89.04 94.23
    下载: 导出CSV
  • [1] 叶敏, 王斌, 王思远, 等. 多特征分量结合的WorldView-3影像建筑容积率分类提取[J]. 武汉大学学报·信息科学版, 2019, 44(11): 1674-1684 doi: 10.13203/j.whugis20180241

    Ye Min, Wang Bin, Wang Siyuan, et al. Extracting Floor Area Ratio of the Classified Buildings from Very High Resolution Satellite Image Using Multiple Features[J]. Geomatics and Information Science of Wuhan University, 2019, 44(11): 1674-1684 doi: 10.13203/j.whugis20180241

    [2] 吕凤华, 舒宁, 龚龑, 等. 利用多特征进行航空影像建筑物提取[J]. 武汉大学学报·信息科学版, 2017, 42(5): 656-660 doi: 10.13203/j.whugis20140781

    Lü Fenghua, Shu Ning, Gong Yan, et al. Regular Building Extraction from High Resolution Image Based on Multilevel-Features[J]. Geomatics and Information Science of Wuhan University, 2017, 42 (5): 656-660 doi: 10.13203/j.whugis20140781

    [3] 高贤君, 郑学东, 沈大江, 等. 城郊高分影像中利用阴影的建筑物自动提取[J]. 武汉大学学报·信息科学版, 2017, 42(10): 1350-1357 doi: 10.13203/j.whugis20150766

    Gao Xianjun, Zheng Xuedong, Shen Dajiang, et al. Automatic Building Extraction Based on Shadow Analysis from High Resolution Images in Suburb Areas[J]. Geomatics and Information Science of Wuhan University, 2017, 42(10): 1350-1357 doi: 10.13203/j.whugis20150766

    [4] 林祥国, 张继贤. 面向对象的形态学建筑物指数及其高分辨率遥感影像建筑物提取应用[J]. 测绘学报, 2017, 46(6): 724-733 https://www.cnki.com.cn/Article/CJFDTOTAL-CHXB201706009.htm

    Lin Xiangguo, Zhang Jixian. Object-Based Morphological Building Index for Building Extraction from High Resolution Remote Sensing Imagery[J]. Acta Geodaetica et Cartographica Sinica, 2017, 46(6): 724-733 https://www.cnki.com.cn/Article/CJFDTOTAL-CHXB201706009.htm

    [5] 舒国栋, 刘传杰, 王露. 机载LiDAR点云的城市平顶建筑物提取方法研究[J]. 现代测绘, 2019, 42(1): 21-23 doi: 10.3969/j.issn.1672-4097.2019.01.006

    Shu Guodong, Liu Chuanjie, Wang Lu. Extraction Algorithm Study of Urban Flat-Topped Buildings Based on Airborne LiDAR Point Cloud[J]. Modern Surveying and Mapping, 2019, 42(1): 21-23 doi: 10.3969/j.issn.1672-4097.2019.01.006

    [6] 曾齐红, 毛建华, 李先华, 等. 建筑物LiDAR点云的屋顶边界提取[J]. 武汉大学学报·信息科学版, 2009, 34(4): 383-386 http://ch.whu.edu.cn/article/id/1216

    Zeng Qihong, Mao Jianhua, Li Xianhua, et al. Building Roof Boundary Extraction from LiDAR Point Cloud[J]. Geomatics and Information Science of Wuhan University, 2009, 34(4): 383-386 http://ch.whu.edu.cn/article/id/1216

    [7]

    Mnih V, Hinton G. Machine Learning for Aerial Image Labeling[D]. Toronto: University of Toronto, 2013

    [8]

    He K M, Zhang X Y, Ren S Q, et al. Deep Residual Learning for Image Recognition[C]// IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 2016

    [9]

    Paisitkriangkrai S, Sherrah J, Janney P, et al. Effective Semantic Pixel Labelling with Convolutional Networks and Conditional Random Fields[C]// IEEE Conference on Computer Vision and Pattern Recognition Workshops, Boston, MA, USA, 2015

    [10]

    Maggiori E, Tarabalka Y, Charpiat G, et al. High-Resolution Aerial Image Labeling with Convolutional Neural Network[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(12): 7092-7103 doi: 10.1109/TGRS.2017.2740362

    [11]

    Long J, Shelhamer E, Darrell T. Fully Convolutional Networks for Semantic Segmentation[C]// IEEE Conference on Computer Vision and Pattern Recognition, Boston, MA, USA, 2015

    [12]

    Kipf T N, Welling M. Semi-supervised Classification with Graph Convolutional Networks[J]. arXiv, 2016, DOI: 1609.02907

    [13]

    Badrinarayanan V, Kendall A, Cipolla R. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495 doi: 10.1109/TPAMI.2016.2644615

    [14]

    Li X H, He M Z, Li H F, et al. A Combined Loss-Based Multiscale Fully Convolutional Network for High-Resolution Remote Sensing Image Change Detection[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19: 1-5

    [15]

    Zhu Q, Liao C, Hu H, et al. MAPNet: Multiple Attending Path Neural Network for Building Footprint Extraction from Remote Sensed Imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(7): 6169-6181 doi: 10.1109/TGRS.2020.3026051

    [16]

    Ferrari V, Hebert M, Sminchisescu C, et al. Com puter Vision[C]//The 15th European Conference, Munich, Germany, 2018

    [17]

    Ji S P, Wei S Q, Lu M. Fully Convolutional Networks for Multisource Building Extraction from an Open Aerial and Satellite Imagery Data Set[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(1): 574-586 doi: 10.1109/TGRS.2018.2858817

    [18]

    Maggiori E, Tarabalka Y, Charpiat G, et al. Can Semantic Labeling Methods Generalize to any City? The Inria Aerial Image Labeling Benchmark [C]//IEEE International Geoscience and Remote Sensing Symposium, Fort Worth, TX, USA, 2017

    [19]

    Navab N, Hornegger J, Wells W M, et al. Medical Image Computing and Computer-Assisted Intervention[C]//The 18th International Conference, Munich, Germany, 2015

    [20]

    Zhao H S, Shi J P, Qi X J, et al. Pyramid Scene Parsing Network[C]// IEEE Conference on Com puter Vision and Pattern Recognition, Honolulu, HI, USA, 2017

    [21] 徐胜军, 欧阳朴衍, 郭学源, 等. 基于多尺度特征融合模型的遥感图像建筑物分割[J]. 计算机测量与控制, 2020, 28(7): 214-219

    Xu Shengjun, Ouyang Puyan, Guo Xueyuan, et al. Building Segmentation of Remote Sensing Images Based on Multiscale-Feature Fusion Model[J]. Computer Measurement & Control, 2020, 28(7): 214-219

  • 期刊类型引用(11)

    1. 张卓尔,潘俊,舒奇迪. 基于双路细节关注网络的遥感影像建筑物提取. 武汉大学学报(信息科学版). 2024(03): 376-388 . 百度学术
    2. 高贤君,冉树浩,张广斌,杨元维. 基于多特征融合与对象边界联合约束网络的建筑物提取. 武汉大学学报(信息科学版). 2024(03): 355-365 . 百度学术
    3. 柳林,马泽鹏,孙毅,李万武,项子诚. 基于MS-DeepLabV3+的街景语义分割及城市多维特征识别. 武汉大学学报(信息科学版). 2024(03): 343-354 . 百度学术
    4. 徐辛超,乔浩磊,刘明岳,付晓天,赵晗光. 一种基于MBFF-Net的遥感影像建筑物提取方法. 测绘科学. 2024(02): 115-123 . 百度学术
    5. 徐辛超,孟祥柯,于佳琪. 基于改进YOLOv5s的遥感影像小目标检测. 测绘科学. 2024(06): 143-153 . 百度学术
    6. 肖漫漫,赵三元,李浩. 多层级多尺度特征融合的轻量级语义分割算法. 计算机仿真. 2024(10): 168-173 . 百度学术
    7. 刘宇鑫,孟瑜,邓毓弸,陈静波,刘帝佑. 融合CNN与Transformer的高分辨率遥感影像建筑物双流提取模型. 遥感学报. 2024(11): 2943-2953 . 百度学术
    8. 顾小虎,李正军,缪健豪,李星华,沈焕锋. 高分遥感影像双通道并行混合卷积分类方法. 测绘学报. 2023(05): 798-807 . 百度学术
    9. 牛冲,王晓明,张友超,任彤欣,王秀凤. 面向高分遥感影像提取光伏板模型的构建方法. 测绘科学. 2023(05): 197-205+212 . 百度学术
    10. 王春艳,张成谦,王祥,许宁. 改进YOLOv7-tiny网络的多尺度无人机航拍小目标检测. 测绘科学. 2023(11): 189-199 . 百度学术
    11. 冯权泷,牛博文,朱德海,陈泊安,张超,杨建宇. 土地利用/覆被深度学习遥感分类研究综述. 农业机械学报. 2022(03): 1-17 . 百度学术

    其他类型引用(11)

图(7)  /  表(4)
计量
  • 文章访问数:  1751
  • HTML全文浏览量:  331
  • PDF下载量:  222
  • 被引次数: 22
出版历程
  • 收稿日期:  2021-09-17
  • 网络出版日期:  2022-01-19
  • 发布日期:  2022-08-04

目录

/

返回文章
返回