Message Board

Respected readers, authors and reviewers, you can add comments to this page on any questions about the contribution, review,        editing and publication of this journal. We will give you an answer as soon as possible. Thank you for your support!

Name
E-mail
Phone
Title
Content
Verification Code
Volume 47 Issue 8
Aug.  2022
Turn off MathJax
Article Contents

LI Pengcheng, BAI Wenhao. Automatic Hiding Method of Sensitive Targets in Remote Sensing Images Based on Transformer Structure[J]. Geomatics and Information Science of Wuhan University, 2022, 47(8): 1287-1297. doi: 10.13203/j.whugis20220219
Citation: LI Pengcheng, BAI Wenhao. Automatic Hiding Method of Sensitive Targets in Remote Sensing Images Based on Transformer Structure[J]. Geomatics and Information Science of Wuhan University, 2022, 47(8): 1287-1297. doi: 10.13203/j.whugis20220219

Automatic Hiding Method of Sensitive Targets in Remote Sensing Images Based on Transformer Structure

doi: 10.13203/j.whugis20220219
Funds:

The Natural Science Foundation of Henan Province 202300410535

More Information
  • Author Bio:

    LI Pengcheng, PhD, lecturer, specializes in digital photogrammetry, intelligent interpretation of remote sensing images. E-mail: lpclqq@163.com

  • Corresponding author: BAI Wenhao, undergraduate. E-mail: 2450531002@qq.com
  • Received Date: 2022-04-20
  • Publish Date: 2022-08-05
  •   Objective  Decryption is the key to ensure the safe sharing of remote sensing resources. To solve the problems of incomplete target detection, unreliable complementary results, high resource consumption and difficulty of training in the traditional methods of sensitive target hiding in remote sensing images, an automatic hiding method of sensitive targets in remote sensing images is proposed based on the ability of Transformer structure to deal with global information.  Methods  Firstly, the optimized Cascade Mask R-CNN instance segmentation model with Swin Transformer as the backbone network is used to detect sensitive targets and generate mask regions. After improving the generalization capability of the model, RSMosaic (remote sense Mosaic), a data synthesis method to reduce the dependence on manually labeled data is designed. Secondly, the mask region is expanded by using the shadow detection model based on HSV(hue-saturation-value) space, and the MAE(masked autoencoders) model is introduced to achieve target background generation. Finally, the generated images are spliced with the original images to obtain the decrypted images.  Results  The sub-meter remote sensing images collected by Google Earth are used as test data, and the results show that this proposed method generates reliable hiding results while reducing dataset dependence and training resource consumption. Compared with the traditional method, the AP (average precision) values of bounding box and pixel mask are improved by 13.2% and 11.2% respectively in sensitive target instance segmentation, and the AP values can be improved by another 9.39% and 14.16% respectively after using RSMosaic, which is better than other repair models in terms of objective index and index variance in the field of image repair, especially in mean absolute error and maximum mean discrepancy indexes which are improved by more than 80%. It achieves the effect of automatic hiding of sensitive targets with reasonable structure and clear texture.  Conclusions  The proposed method reduces manpower, data and computing resources, and achieves better results in both subjective visual effects and objective indexes, which can provide technical support for real remote sensing image sharing.
  • [1] 李彬彬. 数字影像敏感目标脱密模型与算法研究[D]. 南京: 南京师范大学, 2015

    Li Binbin. Research on Decipherment Model and Algorithm of Sensitive Target for Digital Image[D]. Nanjing: Nanjing Normal University, 2015
    [2] Criminisi A, Perez P, Toyama K. Region Filling and Object Removal by Exemplar-Based Image Inpainting[J]. IEEE Transactions on Image Processing, 2004, 13(9): 1200-1212 doi:  10.1109/TIP.2004.833105
    [3] 鲁鹏杰,许大璐,任福,等. 应急遥感制图中敏感目标自动检测与隐藏方法[J]. 武汉大学学报·信息科学版, 2020, 45(8): 1263-1272 doi:  10.13203/j.whugis20200131

    Lu Pengjie, Xu Dalu, Ren Fu, et al. Auto-Detection and Hiding of Sensitive Targets in Emergency Mapping Based on Remote Sensing Data[J]. Geomatics and Information Science of Wuhan University, 2020, 45(8): 1263-1272 doi:  10.13203/j.whugis20200131
    [4] He K M, Gkioxari G, Dollár P, et al. Mask R-CNN[C]//IEEE International Conference on Computer Vision, Venice, Italy, 2017
    [5] Yu J H, Lin Z, Yang J M, et al. Generative Image Inpainting with Contextual Attention[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, 2018
    [6] Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative Adversarial Networks[J]. arXiv, 2014, DOI:  1406.2661
    [7] 程显毅,谢璐,朱建新,等. 生成对抗网络GAN综述[J]. 计算机科学, 2019, 46(3): 74-81 https://www.cnki.com.cn/Article/CJFDTOTAL-JSJA201903009.htm

    Cheng Xianyi, Xie Lu, Zhu Jianxin, et al. Review of Generative Adversarial Network[J]. Computer Science, 2019, 46(3): 74-81 https://www.cnki.com.cn/Article/CJFDTOTAL-JSJA201903009.htm
    [8] Vaswani A, Shazeer N, Parmar N, et al. Attention is all You Need[J]. arXiv, 2017, DOI:  1706.03762
    [9] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale[J]. arXiv, 2020, DOI:  2010.11929
    [10] Liu Z, Lin Y T, Cao Y, et al. Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows[C]//IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, QC, Canada, 2021
    [11] Cai Z W, Vasconcelos N. Cascade R-CNN: Delving into High Quality Object Detection[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, 2018
    [12] He K, Chen X, Xie S, et al. Masked Autoencoders are Scalable Vision Learners[J]. arXiv, 2021, DOI:  2111.06377
    [13] Bochkovskiy A, Wang C Y, Liao H Y M. YOLOv4: Optimal Speed and Accuracy of Object Detection[J]. arXiv, 2020, DOI:  2004.10934
    [14] Ghiasi G, Cui Y, Srinivas A, et al. Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, TN, USA, 2021
    [15] Zhang Q J, Cong R M, Li C Y, et al. Dense Attention Fluid Network for Salient Object Detection in Optical Remote Sensing Images[J]. IEEE Transactions on Image Processing, 2021, 30: 1305-1317 doi:  10.1109/TIP.2020.3042084
    [16] Xia G S, Hu J W, Hu F, et al. AID: A Benchmark Data Set for Performance Evaluation of Aerial Scene Classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(7): 3965-3981 doi:  10.1109/TGRS.2017.2685945
    [17] Kar A, Prakash A, Liu M Y, et al. Meta-Sim: Learning to Generate Synthetic Datasets[C]//IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, Korea (South), 2019
    [18] 赵晓宇,陈建军,张凯琪,等. 基于HSV色彩空间和Otsu算法的无人机影像植被覆盖度自动提取[J]. 科学技术与工程, 2021, 21(35): 15160-15166 https://www.cnki.com.cn/Article/CJFDTOTAL-KXJS202135037.htm

    Zhao Xiaoyu, Chen Jianjun, Zhang Kaiqi, et al. Automatic Extraction of Vegetation Coverage from Unmanned Aerial Vehicle Images Based on HSV and Otsu Algorithm[J]. Science Technology and Engineering, 2021, 21(35): 15160-15166 https://www.cnki.com.cn/Article/CJFDTOTAL-KXJS202135037.htm
    [19] Tsai V J D. A Comparative Study on Shadow Compensation of Color Aerial Images in Invariant Color Models[J]. IEEE Transactions on Geoscience and Remote Sensing, 2006, 44(6): 1661-1671 doi:  10.1109/TGRS.2006.869980
    [20] Otsu N. A Threshold Selection Method from Gray-Level Histograms[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1979, 9(1): 62-66 doi:  10.1109/TSMC.1979.4310076
    [21] 唐浩丰,董元方,张依桐,等. 基于深度学习的图像补全算法综述[J]. 计算机科学, 2020, 47(S2): 151-164 https://www.cnki.com.cn/Article/CJFDTOTAL-JSJA2020S2028.htm

    Tang Haofeng, Dong Yuanfang, Zhang Yitong, et al. Survey of Image Inpainting Algorithms Based on Deep Learning[J]. Computer Science, 2020, 47(S2): 151-164 https://www.cnki.com.cn/Article/CJFDTOTAL-JSJA2020S2028.htm
    [22] Lucic M, Kurach K, Michalski M, et al. Are GANs Created Equal? a Large-Scale Study[J]. arXiv, 2017, DOI:  1711.10337
    [23] Russakovsky O, Deng J, Su H, et al. ImageNet Large Scale Visual Recognition Challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252
    [24] Hinton G E, Zemel R. Autoencoders, Minimum Description Length and Helmholtz Free Energy[J]. Advances in Neural Information Processing Systems, 1994, 6: 3-10
    [25] Devlin J, Chang M W, Lee K, et al. BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding[J]. arXiv, 2018, DOI:  1810.04805
    [26] Jing L L, Tian Y L. Self-Supervised Visual Feature Learning with Deep Neural Networks: A Survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(11): 4037-4058
    [27] Loshchilov I, Hutter F. Decoupled Weight Decay Regularizatio[J]. arXiv, 2017, DOI:  1711.05101
    [28] Liu G L, Reda F A, Shih K J, et al. Image Inpainting for Irregular Holes Using Partial Convolutions[C]//The European Conference on Computer Vision (ECCV), Munich, Germany, 2018
    [29] Nazeri K, Ng E, Joseph T, et al. EdgeConnect: Structure Guided Image Inpainting Using Edge Prediction[C]//IEEE/CVF International Conference on Computer Vision Workshop (ICCVW), Seoul, Korea (South), 2019
    [30] Xu Q, Huang G, Yuan Y, et al. An Empirical Study on Evaluation Metrics of Generative Adversarial Networks[J]. arXiv, 2017, DOI:  1806.07755
  • 加载中
通讯作者: 陈斌, bchen63@163.com
  • 1. 

    沈阳化工大学材料科学与工程学院 沈阳 110142

  1. 本站搜索
  2. 百度学术搜索
  3. 万方数据库搜索
  4. CNKI搜索

Figures(9)  / Tables(6)

Article Metrics

Article views(60) PDF downloads(20) Cited by()

Related
Proportional views

Automatic Hiding Method of Sensitive Targets in Remote Sensing Images Based on Transformer Structure

doi: 10.13203/j.whugis20220219
Funds:

The Natural Science Foundation of Henan Province 202300410535

  • Author Bio:

  • Corresponding author: BAI Wenhao, undergraduate. E-mail: 2450531002@qq.com

Abstract:   Objective  Decryption is the key to ensure the safe sharing of remote sensing resources. To solve the problems of incomplete target detection, unreliable complementary results, high resource consumption and difficulty of training in the traditional methods of sensitive target hiding in remote sensing images, an automatic hiding method of sensitive targets in remote sensing images is proposed based on the ability of Transformer structure to deal with global information.  Methods  Firstly, the optimized Cascade Mask R-CNN instance segmentation model with Swin Transformer as the backbone network is used to detect sensitive targets and generate mask regions. After improving the generalization capability of the model, RSMosaic (remote sense Mosaic), a data synthesis method to reduce the dependence on manually labeled data is designed. Secondly, the mask region is expanded by using the shadow detection model based on HSV(hue-saturation-value) space, and the MAE(masked autoencoders) model is introduced to achieve target background generation. Finally, the generated images are spliced with the original images to obtain the decrypted images.  Results  The sub-meter remote sensing images collected by Google Earth are used as test data, and the results show that this proposed method generates reliable hiding results while reducing dataset dependence and training resource consumption. Compared with the traditional method, the AP (average precision) values of bounding box and pixel mask are improved by 13.2% and 11.2% respectively in sensitive target instance segmentation, and the AP values can be improved by another 9.39% and 14.16% respectively after using RSMosaic, which is better than other repair models in terms of objective index and index variance in the field of image repair, especially in mean absolute error and maximum mean discrepancy indexes which are improved by more than 80%. It achieves the effect of automatic hiding of sensitive targets with reasonable structure and clear texture.  Conclusions  The proposed method reduces manpower, data and computing resources, and achieves better results in both subjective visual effects and objective indexes, which can provide technical support for real remote sensing image sharing.

LI Pengcheng, BAI Wenhao. Automatic Hiding Method of Sensitive Targets in Remote Sensing Images Based on Transformer Structure[J]. Geomatics and Information Science of Wuhan University, 2022, 47(8): 1287-1297. doi: 10.13203/j.whugis20220219
Citation: LI Pengcheng, BAI Wenhao. Automatic Hiding Method of Sensitive Targets in Remote Sensing Images Based on Transformer Structure[J]. Geomatics and Information Science of Wuhan University, 2022, 47(8): 1287-1297. doi: 10.13203/j.whugis20220219
  • 遥感探测具有宏观性与动态性,在不受地面限制的条件下可大范围、快速获取地物数据,但当遥感区域涉及国防与军事等敏感目标时,公开发布影像存在安全隐患,因此针对遥感影像的脱密处理尤其重要。当前,人工隐藏工作量大,自动隐藏效果欠佳,不能满足应急遥感制图的紧迫需要,无法适应地理信息公开资源的更新速度,难以达到敏感目标隐藏的质量要求。

    现有遥感影像敏感目标隐藏的研究较少,文献[1]基于样本纹理合成原理[2], 通过搜索算法与基于颜色纹理特征匹配准则,将生成的非线性变换纹理块替换原样本纹理块,构建数字影像敏感目标安全脱密模型,但构建复杂且隐藏效果与处理速度需要改进。近年来,深度学习技术发展迅速,在遥感影像处理中逐渐表现出更好的效果。文献[3]提出基于深度学习的敏感目标自动隐藏方法,该方法利用Mask R-CNN(region-based convolutional neural network)[4]实例分割模型识别目标并生成掩膜图像,再运用Deepfill v1[5]粗‑细两阶段式生成对抗网络(generative adversarial networks, GAN)[6]模型进行图像修复处理,该方法在掩膜生成与损失函数重构上进行了改进,得到了视觉效果较为合理的敏感目标隐藏结果。但使用GAN图像修补算法需要耗费大量时间调试超参数,且GAN模型训练不稳定[7]。文献[8]提出了以多头自注意力为主要结构的深度学习模型,重点研究数据中的长期依赖关系,该模型最早应用于自然语言处理[9-10]。文献[9]在分类、识别、分割等视觉任务中将ViT(vision transformer)作为主干网络,为Transformer结构在视觉领域的应用打下良好基础。

    为解决现有目标隐藏方法存在的问题,本文以Transformer结构为基础,对以Swin Transformer[10]为主干网络的Cascade Mask R-CNN算法[11]进行优化,检测遥感影像中敏感目标,提出一种针对遥感影像的RSMosaic(remote sense Mosaic)数据合成方法,并将MAE(masked autoencoders)[12]预训练模型应用于敏感目标背景生成。

  • 基于Transformer结构的敏感目标隐藏方法利用Cascade Mask R-CNN优化模型检测敏感目标,提升模型的泛化能力与小目标识别能力,主要流程如图 1所示。首先提出一种新的合成数据方法RSMosaic, 减少对样本标注的依赖;其次设计基于色相-饱和度-明度(hue-saturation-value, HSV)空间的阴影检测模型识别目标阴影区域,并将其与目标掩膜区域进行合并膨胀处理,增强目标覆盖完整性;然后利用MAE模型生成背景补全影像,将其与原始影像拼接得到最终目标隐藏结果;最后根据综合评价指标对隐藏结果进行定量评价。

    Figure 1.  Flowchart of the Proposed Method

  • Cascade Mask R-CNN模型是对典型实例分割模型Mask R-CNN的改进,其在Mask R-CNN的基础上级联不同交并比(intersection over union, IoU)阈值的预测头,保证预测结果的稳定性和准确性。然而传统卷积神经网络通过池化等操作逐步获取全局信息,无法在低层次维度全面获取图像特征。Transformer模型利用多头自注意力机制可有效运用同层次的多维度信息,有利于在复杂多样的影像场景中检测敏感目标。

    因此,本文以Swin Transformer作为Cascade Mask R-CNN检测模型的主干网络,该网络以多头自注意力为基础结构,并根据ViT分块嵌入编码的思想,将图像以4×4像素的大小分块后,编码输入窗口注意力模块和移动窗口注意力模块得到深层特征。多头自注意力的计算如下:

    式中, i=1, 2h, h为自注意力头数量;QKV分别为图像块嵌入编码后得到的查询向量、键向量、值向量;d表示特征的维度;W为线性化系数矩阵;Z为多头自注意力机制结合不同独立特征空间的信息得到的深层次特征。

    窗口注意力模块不同于一般注意力模块,仅在设定的窗口内进行多头自注意力计算,其中窗口内默认为7个像素块,因此窗口注意力模块减少了计算量,为精细的预测任务提供了更多计算空间。但由于其窗口限制,自注意力计算限制在非重叠的局部窗口上,使得感受野受限,故在窗口注意力模块后添加移动窗口注意力模块。该模块通过移动窗口将不同区域纳入注意力计算,利用独特掩码机制提高跨窗口连接计算效率。除注意力模块外, Swin Transformer基本结构还由多层感知机、层归一化与GELU激活函数等通过残差连接构成,具体结构如图 2所示。

    Figure 2.  Structure Diagram of Swin Transformer

    Swin Transformer的主干网络符合层级式结构,通过不断缩小特征图得到多尺度特征信息,利用块合并处理可扩大感受野。为增强模型对遥感影像的适应性与识别小目标的能力,本文在原有Cascade Mask R-CNN模型基础上进行优化,主要包括:(1)考虑遥感影像光照条件差异,本文在原有随机裁剪、翻转、缩放的基础上,增加了随机亮度与对比度调整,以适应过曝与偏色等情况。(2)原有Mask R-CNN算法针对自然场景设计的区域候选网络(region proposal network, RPN)网络提供候选框的比例为{0.5, 1.0, 2.0}, 本文结合遥感影像常规敏感目标比例大小,调整候选框比例系数为{0.8, 1.0, 1.25}。(3)为增强模型抗过拟合能力,将训练时的Smooth L1正则化损失权重由1增加至5。(4)相比传统卷积神经网络,以Swin Transformer为主干网络的检测模型感受野有明显扩大,但其在输入图像前进行了固定像素大小(默认为4像素)的分块处理,会导致不同尺度目标的检测结果出现差异。为进一步增强算法识别小目标能力,本文对数据增强阶段随机缩放方法进行优化,在兼顾检测大型目标的基础上增大缩小图像比例,缩放优化方法如图 3所示,其中原始表示原模型图像候选缩放尺寸,调整后表示改进后图像候选缩放尺寸。

    Figure 3.  Random Scaling Modification

  • 当前遥感影像小型目标实例分割数据集较少,且现有数据集存在环境信息缺乏、目标过于稀疏等问题,导致训练集与测试集存在较大分布差异。本文根据文献[13]中的Mosaic方法与文献[14]提出的Copy-Paste数据增强方法,提出一种针对遥感影像的合成数据方法RSMosaic。Mosaic是一种针对目标检测的有效数据增强方法,将4张图像的多个目标拼接到一张图像实现数据增强;Copy-Paste是一种针对实例分割的数据增强方法,将不同尺度对象复制粘贴到新背景图像,并采取大尺度抖动操作实现数据增强。两种数据增强方法增强了网络对正常环境之外对象的检测,提高了网络性能与稳健性。RSMosaic方法将遥感影像中的目标粘贴到特定场景类别的图像中,为保持目标与背景间的尺度合理性,并不做大尺度抖动处理。

    将遥感影像分割数据集EORSSD(extended optical remote sensing saliency detection)[15]中的飞机图像拼接到遥感影像分类数据集AID30[16]中的Center、DenseResidential、Industrial、RailwayStation、Farmland类别图像中,如图 4所示。AID30数据集的图像大小为600×600像素,收集质量较高;EORSSD数据集则包含大量图像尺寸小于600×600像素的缺少周围环境的飞机数据,可作粘贴处理。AID30数据集中有Airport类别,但不作为背景,该数据集下的Airport类别存有大量飞机,若EORSSD图像遮挡不完整则会污染数据集。机场通常位于城市周边,且有较为明显的航站楼。由于Center与RailwayStation和航站楼结构特征近似,将DenseResidential、Industrial、Farmland与城郊周围环境相符合的特点进行处理。RSMosaic合成数据方法在复制真实数据重要属性的前提下模拟场景[17], 可有效减少对人工标注数据的依赖。

    Figure 4.  Target, Background and Synthetic Data

  • 在不同拍摄时间、角度和目标高度的条件下,遥感影像中目标的阴影会表现出较大差异。若是采用目标框的形式识别目标,会包含目标周围过多区域;而以分割掩膜形式识别目标,则会出现无法包含阴影区域的问题。本文在分割掩膜的基础上采用基于HSV[18]空间的图像阴影扩充方法添加阴影区域,并对两区域进行合并膨胀处理得到最终的掩膜区域。RGB(red, green, blue)色彩转换为HSV色彩的计算如下:

    式中, RGB分别为像素点红、绿、蓝波段的像元灰度值;HSV分别为像素点的色相、饱和度、明度。

    由于阴影区域色调偏高、明度偏低,因此在比值图中采用阈值法可区分阴影区域与非阴影区域[19], 比值图Rx,y为:

    式中, Vx,y是归一化明度图;Hx,y是归一化色调图。

    阴影检测阈值T由大津法[20]计算得到:

    式中, P(i)表示在比值图R(x,y)中数值i出现的概率;μ1μ2分别表示目标类、背景类的加权平均值。为避免非必要背景对比值图分布的影响,本文仅对边界框内的图像进行检测,其余背景均填充为白色。考虑目标阴影连续性分布特点,在阴影检测后进行阈值消抖滤波处理,对噪声点进行消除。

  • 基于深度学习的图像补全模型利用卷积神经网络结合GAN、深度自编码器等[21]生成待补全区域图像。模型损失函数通常由内容损失、风格损失、纹理损失等多种复杂的损失函数加权组成,需手动调整权值,且需要大量与测试环境同源同分布的影像数据集作为训练数据才能取得较好的训练结果。此外, GAN模型训练是为达到纳什均衡[22], 而生成器和辨别器不平衡会导致过拟合问题,其对超参数、数据样本广度和质量都有极高的敏感度,会导致GAN的隐藏效果不稳定。

    针对以上问题,本文引入MAE模型,将其用作ImageNet-1K[23]数据集的预训练模型进行图像补全处理。该方法省去了复杂且困难的超参数手动调整,减少了资源需求,并有效改善了传统补全方法由于目标尺度不一、地物分布差异大、损失函数多样等原因造成的补全图像与周围区域存在明显差异的问题。MAE模型是一个Transformer的自编码器[24]预训练模型,将自然语言模型中BERT[25]算法应用于计算机视觉中。MAE编码器采用ViT模型,将图片分割成一个个图像块,再通过线性映射将图像块转换成标记嵌入编码。同时为了保留位置信息,在标记嵌入编码后加上可学习的位置嵌入编码。最后将以上编码信息输入一组Transformer编码器模块中,输出特征值。MAE解码器也由一组Transformer模块组成,相比编码器更浅、更窄,这种不对称结构可减少训练时间。图 5展示了MAE模型。

    Figure 5.  Schematic Diagram of MAE Model

    为减少训练开销、提升训练速度,令编码器学习更深层次的语义信息, MAE模型在训练时采用了高比例掩码,经测试采用75%的掩码率效果最优,可大面积覆盖住原始图像,仅将未遮盖图像添加位置信息后输入网络中。本文利用生成图像与原图像的均方误差(mean square error, MSE)与梯度下降算法优化模型参数。选用MAE-Large作为实验模型,其编码器为ViT-Large, 解码器为8个深度为8层、宽度为512的Transformer模块。

    MAE图像补全应用是代理任务[26], 其原作用为通过大量数据训练出功能强大的语义提取预训练模型,以便将其编码器作为主干网络移植到下游各种计算机视觉应用模型中,如影像分类、目标识别、语义分割等,而图像补全的输出结果能应用图像修补领域。本文方法将整张图像分成n张小图像,解决了图像输入尺寸问题,且有利于减少整张遥感影像对补全模型获取区域附近信息的干扰,提升模型稳健性。MAE训练的目的是提取高级别语义信息,而视觉的原始信号是在一个连续且高维的空间中,较小的像素块代表着各个像素块间信息冗余量增多,不容易重构高级别结果信息,故MAE训练的最小运算单位是16×16像素的图像块,进行补全处理时应与训练保持一致,可以更好地提取并补全当前图像下深层次结构特征。

  • 以飞机目标为例进行方法验证,由于民航飞机与军用敏感飞机几何特征相似,因此选用民航飞机作为实验对象验证本文方法的有效性。实验数据包括Google Earth的亚米级机场遥感影像、EORSSD光学遥感影像显著目标检测数据集和AID30遥感影像分类数据集。其中, Google Earth机场影像数据集包含1 000张图像,图像尺寸为800×549像素,目标数量为7 482个,边界框标注1 000张,多边形分割标注225张,该数据集具有目标分布密集、场景内包含大范围建筑物、曝光条件差异大等特点。EORSSD数据集中飞机目标影像共计426张,拍摄环境各异,且标注精度较高,但数据集图像仅涉及显著目标周围小范围区域影像,未将目标环境包含在内,易导致模型出现漏检和误检问题。硬件采用R7-5800H CPU, 16 GB运行内存, GeForce RTX 3060显卡, 6 GB显存;编程语言为Python 3.7, 深度学习框架为Pytorch 1.8.0。

    设置训练模型参数如下:主干网络为Swin Transformer的small模型,向量维度大小96, Swin Transformer Blocks重复次数为2、2、18、2, 图像块大小为4像素,窗口大小为7图像块, IoU计算方式为GIoU(generalized IoU), 级联预测头IoU阈值默认设置为0.5、0.6、0.7;优化函数为AdamW[27], 步长为0.000 1, β参数为(0.9, 0.999), 权重衰减参数为0.05;采用等间隔调整学习率, γ参数为0.1, 下降间隔为27~33轮。采用MAE模型,输入图像大小为224×224像素,图像块为16×16像素,选用MAE Large模型,在ImageNet-1K数据集添加GAN损失预训练模型权重。

  • 本文实验设计了伴随训练初步验证精度的验证集数据,在原有EORSSD验证集的基础上扩充适当Google Earth影像;测试集采用100张Google Earth影像;训练集在保证总训练数量相同的基础上对数据来源进行调整,具体设置如表 1所示。其中, M为训练集添加合成数据数量, G为训练集添加Google Earth人工标注数据的数量。

    数据集类型 合成数据/张 EORSSD/张 Google Earth影像/张
    训练集 M 302 G
    验证集 0 124 25
    测试集 0 0 100

    Table 1.  Dataset Settings

    在目标识别与实例分割任务中,将预测结果与真实标注间的精确率P、召回率为R、平均精度(average precision, AP)作为评价指标, AP即某类目标precision-recall曲线下的面积。为验证本文提出的RSMosaic合成数据方法的有效性,将前景不进行分割直接粘贴到背景的合成数据(Direct Joint)、前景背景像素级别合成后添加大尺度抖动的合成数据(Large Scale Jittering)、前景数据分割后仍以同类前景数据为背景的合成数据(Similar Background)与RSMosaic合成数据进行比较,如图 6所示。

    Figure 6.  Schematic Diagram of Synthetic Data

    在上述4个合成数据集中各选取100张添加到训练集,利用优化后的Cascade Mask R-CNN模型训练40轮,其测试集结果如图 7所示。其中, bbox_AP_X、segm_AP_X分别表示以目标检测的检测框、实例分割的像素为计算单位, IoU阈值取X的AP值。

    Figure 7.  Test Set Results of Different Synthetic Data Methods

    图 7可知,本文所涉及的大部分合成数据方法在不添加任何额外标注数据的前提下,对原有结果有所提升,其中本文提出的RSMosaic方法在各项指标中均取得最好结果,在bbox_AP、segm_AP指标中相较于原方法分别提升9.39%与14.16%。分析其原因包括以下3点:

    1)Direct Joint合成数据的目标周围仍为原数据背景, Swin Transformer的窗口注意力模块专注于一定区域内的信息交流,不能很好地利用补充的背景影像,故检测精度低于本文方法。

    2)Large Scale Jittering合成数据由于大尺度抖动处理,将目标缩小或扩大至远超正常范围的尺度,此方法适用于自然影像的数据增强,为检测网络提供更全面且差异性更大的训练数据。但遥感影像目标与背景存在相应比例关系,而大尺度抖动破坏了前背景间的比例关系,影响了训练结果,导致最终结果不佳。

    3)Similar Background合成数据则缺少与航站楼、机场周围工业区等环境信息的加入,仅在原EORSSD数据的基础上粘贴,故与原方法相比提升不大。

  • 将本文模型与2018年的Partial-Convolutions[28]以及2019年的EdgeConnect[29]图像补全算法进行对比。这两种对比模型的训练集包含900张与测试集同源的影像,训练时采用随机掩膜制作缺失区域的自监督训练方法,无需进行额外标注,随机掩膜数据集来自文献[28]所提供的不规则二值掩膜图像共计12 000张。对比模型训练时采用与本文模型相同的超参数、损失函数比例系数与预训练模型,各训练100轮。图 8展示了3种模型得到的隐藏效果图,其中Ⅰ、Ⅱ、Ⅲ为3处典型目标隐藏结果实例;①、④、⑤为航站楼附近飞机隐藏效果实例。由图 8可知,本文方法背景生成效果纹理清晰,与周围环境融合协调自然,且未对航站楼等主体建筑进行修改,保留了原本背景信息。EdgeConnect模型则在边缘补全过程中生成了边缘特征,导致最终生成的图像产生伪影,产生不自然的廊桥图像,使得补全效果欠佳;Partial-Convolutions模型生成背景视觉效果较为模糊,缺乏结构性特征;②、③处为直线型纹理的机场地面与跑道效果图,其中本文模型与EdgeConnect模型都较好地依据周围环境信息构建出合理的背景图像,补全了跑道等结构性特征图像,但EdgeConnect模型在补全时存有色差,未能完全融入环境。

    Figure 8.  Comparison of Hiding Effect

    本文依据多种GAN图像生成评价指标[30]进行综合定量评价,选取峰值信噪比(peak signal to noise ratio, PSNR)、结构相似性(structural similarity, SSIM)、平均绝对误差(mean absolute error, MAE)、Kernel最大平均差异(maximum mean discrepancy, MMD)与Fréchet起始距离得分(Fréchet inception distance score, FID)5个指标对隐藏图像效果进行对比评价。PSNR计算如下:

    式中, MAXI表示图像位数;MSE(mean square error)为两张图像间的均方误差。SSIMMAE计算如下:

    式中, xy分别为原始图像与生成图像;μσ分别为图像均值、方差;mn分别为图像长、宽(像素);c维持稳定的常数。

    利用在ImageNet数据集训练稳定的ResNet34网络分别提取原始图像与生成图像第5层的特征向量,计算其MMD为:

    式中, xy为原始图像与生成图像的特征向量;k为核函数;mn分别为xy特征向量长度。

    利用在ImageNet数据集训练稳定的InceptionV3网络提取原始图像与生成图像倒数第二层的2 048维特征向量,计算其FID为:

    式中, xy同前;μ为特征向量均值;Σ为特征向量协方差矩阵。

    PSNR、SSIM与生成图像质量正相关, MAE、MMD和FID与生成图像质量负相关,各指标平均值如表 2所示。由表 2可知,本文方法在所有指标上均优于其他方法,尤其在MAE、MMD指标上高于其他方法80%以上。可见本文方法生成图像在浅层与深层次特征上均达到较好效果。

    方法 PSNR SSIM MAE FID MMD
    本文方法 31.673 9 0.953 6 0.004 0 38.410 0 0.009 7
    EdgeConnect 29.817 9 0.941 3 0.006 1 43.833 6 0.013 0
    Partial-Convolutions 26.920 2 0.922 2 0.032 1 42.734 2 0.050 1

    Table 2.  Comparison of Evaluation Indexes of Hiding Effect

    为进一步对生成图像稳定性进行分析,本文求取PSNR、SSIM与MAE指标在各方法的总体方差,结果如表 3所示。由表 3可知,本文方法大多数指标都优于其他方法,表明本文方法有足够的可靠性与稳定性。

    方法 PSNR方差 SSIM方差 MAE方差
    本文方法 15.491 7 0.000 7 1.49×10-5
    EdgeConnect 14.717 5 0.001 1 3.23×10-5
    Partial-Convolutions 17.635 8 0.002 5 1.04×10-3

    Table 3.  Comparison of Evaluation Indexes of Hiding Effect Stability

    在计算效率方面,由于本文方法直接采用MAE预训练模型,省去了模型训练过程,相比Partial-Convolutions和EdgeConnect方法具有显著优势, 表 4展示了各种方法的模型训练时间对比情况。

    模型 训练100轮时长
    本文方法
    EdgeConnect 6.181
    Partial-Convolutions 3.295

    Table 4.  Comparison of Model Training Duration/h

  • 为验证目标检测优化效果,实验统一以Swin Transformer-Small为主干网络,对经典的Mask R-CNN、Cascade Mask R-CNN与本文提出的优化后的Cascade Mask R-CNN进行对比实验,各模型训练均为40轮。在不添加任何辅助数据,即M=0, G=0时,测试集AP指标结果如表 5所示。

    模型 bbox_AP segm_AP
    优化后的Cascade Mask R-CNN 0.618 0.233
    Cascade Mask R-CNN 0.546 0.214
    Mask R-CNN 0.510 0.206

    Table 5.  Comparison of Target Detection Results

    因训练集与测试集存在较大分布差异,各个模型检测结果指标较差,但Cascade Mask R-CNN添加了级连头,检测目标精度更高,其AP值更高;而本文优化后的模型加强抗过拟合和检测小目标的能力,使得检测结果进一步提高。

    为进一步验证合成数据的可靠性,将Google Earth人工高精度标注数据与RSMosaic或Direct Joint合成数据按比例混合,分别各训练40轮,各数据集测试结果如图 9所示,其中纵轴表示不同合成数据集测试结果与EORSSD训练集测试结果的比值。

    Figure 9.  Test Results of Mixed Data Sets

    图 9可知,不同指标间差异较大,但因为人工标注数据集与测试集分布接近,总体呈现随着人工标注数据集占比越大,训练结果越好的趋势。RSMosaic合成数据仍在大部分指标上超过Direct Joint合成数据方法,符合之前实验结论。

    在无任何人工标注辅助下, RSMosaic方法的bbox_AP与segm_AP指标达到了100张人工标注数据集测试结果的92.48%与98.52%;在仅添加25张人工标注数据集的条件下,达到了100张标注数据集结果的97.93%与93.12%, 说明RSMosaic方法具备在仅需少量或无需标注数据辅助的条件下保证较高检测精度的能力。

    本文将MAE模型生成的补全图像与目标掩膜进行拼接,最终得到背景补全结果。该策略可最大程度保留原始图像信息,保证补全区域边界与背景图像一致。为验证该策略的有效性,将补全结果与不采用掩膜信息做拼接处理的结果进行对比,结果如表 6所示,其中不采用掩膜信息做拼接处理的结果用MAE-NoSeg表示。

    模型 PSNR SSIM MAE/10-3 FID MMD PSNR方差 SSIM方差 MAE方差/10-5
    MAE 31.673 9 0.953 6 4.008 8 38.410 0 9.747 3×10-3 15.491 7 6.934 9×10-4 1.489
    MAE-NoSeg 30.876 0 0.942 4 5.664 6 43.295 5 1.114 5×10-2 16.931 1 1.144 8×10-3 2.529

    Table 6.  Comparison Before and After Using Mask Splicing Strategy

  • 本文针对遥感影像中敏感目标隐藏需求,利用Transformer为主要结构的深度学习模型达到了较好的自动隐藏效果。首先改进以Swin Transformer为主干网络的Cascade Mask R-CNN模型进行目标实例分割,并设计针对遥感影像的RSMosaic数据合成方法,然后利用基于HSV空间的图像阴影扩充方法进行阴影识别与掩膜扩充处理,最后利用无需训练的MAE模型生成结构合理、纹理清晰的背景图像。对比实验发现:

    1)通过模型适应性改进,在敏感目标实例分割中相较于原方法在边界框与像素掩膜的AP值分别提升13.2%与11.2%, 有效提升了检测小目标的可靠性与准确性。

    2)使用RSMosaic方法后边界框与像素掩膜的AP值分别提升9.39%与14.16%, 达到了在无需额外人工标注数据的前提下,提升网络检测能力的目的。

    3)MAE隐藏模型直接利用预训练模型参数,在无需额外训练、参数调整的同时达到了较好的敏感目标隐藏效果。

    4)本文方法在各项指标上均优于现有图像修补算法,尤其在MAE、MMD指标上高于其他方法80%以上,生成了纹理自然、结构合理的补全背景。

    本文方法对不同类别目标和不同类型遥感影像具有普适性。例如,针对船舶、车辆等目标,只需选取相应背景图像(如港口、高速路)就可以利用本方法实现样本数据合成以及相应遥感影像中的目标隐藏。但由于目标的复杂性和多样性,本文方法在不同类别目标及不同类型影像上的表现尚需进一步验证和更为深入的研究。除此之外,本文方法仍存在一定程度改变背景结构信息的问题,为更好地保留原始背景信息,可进一步提升阴影检测准确率,并对MAE预训练模型进行针对性的重新训练,这也是下一步需要研究的方向。

Reference (30)

Catalog

    /

    DownLoad:  Full-Size Img  PowerPoint
    Return
    Return