留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于ImageNet预训练卷积神经网络的遥感图像检索

葛芸 江顺亮 叶发茂 许庆勇 唐祎玲

葛芸, 江顺亮, 叶发茂, 许庆勇, 唐祎玲. 基于ImageNet预训练卷积神经网络的遥感图像检索[J]. 武汉大学学报 ● 信息科学版, 2018, 43(1): 67-73. doi: 10.13203/j.whugis20150498
引用本文: 葛芸, 江顺亮, 叶发茂, 许庆勇, 唐祎玲. 基于ImageNet预训练卷积神经网络的遥感图像检索[J]. 武汉大学学报 ● 信息科学版, 2018, 43(1): 67-73. doi: 10.13203/j.whugis20150498
GE Yun, JIANG Shunliang, YE Famao, XU Qingyong, TANG Yiling. Remote Sensing Image Retrieval Using Pre-trained Convolutional Neural Networks Based on ImageNet[J]. Geomatics and Information Science of Wuhan University, 2018, 43(1): 67-73. doi: 10.13203/j.whugis20150498
Citation: GE Yun, JIANG Shunliang, YE Famao, XU Qingyong, TANG Yiling. Remote Sensing Image Retrieval Using Pre-trained Convolutional Neural Networks Based on ImageNet[J]. Geomatics and Information Science of Wuhan University, 2018, 43(1): 67-73. doi: 10.13203/j.whugis20150498

基于ImageNet预训练卷积神经网络的遥感图像检索

doi: 10.13203/j.whugis20150498
基金项目: 

国家自然科学基金 41261091

江西省教育厅科技项目 GJJ13482

江西省自然科学基金 20151BAB207062

详细信息

Remote Sensing Image Retrieval Using Pre-trained Convolutional Neural Networks Based on ImageNet

Funds: 

The National Natural Science Foundation of China 41261091

the Youth Fund Project of Education Department of Jiangxi GJJ13482

the National Natural Science Foundation of Jiangxi 20151BAB207062

More Information
  • 摘要: 高分辨率遥感图像内容复杂,细节信息丰富,传统的浅层特征在描述这类图像上存在一定难度,容易导致检索中存在较大的语义鸿沟。本文将大规模数据集ImageNet上预训练的4种不同卷积神经网络用于遥感图像检索,首先分别提取4种网络中不同层次的输出值作为高层特征,再对高层特征进行高斯归一化,然后采用欧氏距离作为相似性度量进行检索。在UC-Merced和WHU-RS数据集上的一系列实验结果表明,4种卷积神经网络的高层特征中,以CNN-M特征的检索性能最好;与视觉词袋和全局形态纹理描述子这两种浅层特征相比,高层特征的检索平均准确率提高了15.7%~25.6%,平均归一化修改检索等级减少了17%~22.1%。因此将ImageNet上预训练的卷积神经网络用于遥感图像检索是一种有效的方法。
  • 图  1  检索流程

    Figure  1.  Flowchart of Retrieval

    图  2  UC-Merced和WHU-RS示例图像

    Figure  2.  Examples of the UC-Merced Dataset and the WHU-RS Dataset

    图  3  UC-Merced每类图像不同特征的mAP

    Figure  3.  Per Class mAPs for Different Features on the UC-Merced Dataset

    图  4  WHU-RS每类图像不同特征的mAP

    Figure  4.  Per Class mAPs for Different Features on the WHU-RS Dataset

    图  5  UC-Merced和WHU-RS数据集查准率-查全率曲线

    Figure  5.  Precision-Recall Curves for Different Features on the UC-Merced Dataset and WHU-RS Dataset

    表  1  不同卷积神经网络的结构

    Table  1.   Different CNN Architectures

    CNN-Alex CNN-M CNN-16 CNN-19
    conv1 96×11×11 conv1 96×7×7 conv1-1 64×3×3
    conv1-2 64×3×3
    conv1-1 64×3×3
    conv1-2 64×3×3
    pool1 pool1 pool1 pool1
    conv2 256×5×5 conv2 256×5×5 conv2-1 128×3×3
    conv2-2 128×3×3
    conv2-1 128×3×3
    conv2-2 128×3×3
    pool2 pool2 pool2 pool2
    conv3 384×3×3 conv3 512×3×3 conv3-1 256×3×3
    conv3-2 256×3×3
    conv3-3 256×3×3
    conv3-1 256×3×3
    conv3-2 256×3×3
    conv3-3 256×3×3
    conv3-4 256×3×3
    pool3 pool3
    conv4 384×3×3 conv4 512×3×3 conv4-1 512×3×3
    conv4-2 512×3×3
    conv4-3 512×3×3
    conv4-1 512×3×3
    conv4-2 512×3×3
    conv4-3 512×3×3
    conv4-4 512×3×3
    pool4 pool4
    conv5 256×3×3 conv5 512×3×3 conv5-1 512×3×3
    conv5-2 512×3×3
    conv5-3 512×3×3
    conv5-1 512×3×3
    conv5-2 512×3×3
    conv5-3 512×3×3
    conv5-4 512×3×3
    pool5
    fc6 4096
    fc7 4096
    fc8 1000
    下载: 导出CSV

    表  2  UC-Merced不同特征的mAP /%

    Table  2.   mAPs for Different Features on the UC-Merced Dataset/%

    类别 pool5 fc6 fc7
    CNN-Alex 45.9 52.4 49.3
    CNN-M 50.6 55.8 54.9
    CNN-16 53.6 55.3 53.3
    CNN-19 52.3 54.6 52.0
    BoVW[6] 30.2
    下载: 导出CSV

    表  3  WHU-RS不同特征的mAP/ %

    Table  3.   mAPs for Different Features on the WHU-RS Dataset/%

    类别 pool5 fc6 fc7
    CNN-Alex 55.1 62.3 62.2
    CNN-M 59.2 65.6 64.6
    CNN-16 58.1 64.5 63.3
    CNN-19 56.6 62.5 60.8
    BoVW [6] 38.9
    下载: 导出CSV

    表  4  特征维数和ANMRR的比较

    Table  4.   Feature Dimensions and ANMRRs for Different Features

    类别 特征维数 ANMRR
    (UC-Merced)
    ANMRR
    (WHU-RS)
    CNN-Alex 4 096 0.405 0.308
    CNN-M 4 096 0.370 0.278
    CNN-16 4 096 0.374 0.291
    CNN-19 4 096 0.380 0.308
    BoVW [6] 150 0.601 0.525
    BoVW [7] 15 000 0.591 0.492
    文献[1] 62 0.575 -
    下载: 导出CSV
  • [1] Aptoula E. Remote Sensing Image Retrieval with Global Morphological Texture Descriptors[J]. IEEE Transactions on Geoscience and Remote Sensing, 2014, 52(5):3023-3034 doi:  10.1109/TGRS.2013.2268736
    [2] Bretschneider T, Cavet R, Kao O. Retrieval of Remotely Sensed Imagery Using Spectral Information Content[C]. The 22nd IEEE International Conference of Geoscience and Remote Sensing Symposium, Toronto, Canada, 2002 http://ieeexplore.ieee.org/xpl/abstractKeywords.jsp?tp=&arnumber=1026510
    [3] Scott G, Klaric M, Davis C, et al. Entropy-Balanced Bitmap Tree for Shape-based Object Retrieval from Large-Scale Satellite Imagery Databases[J]. IEEE Transactions on Geoscience and Remote Sensing, 2011, 49(5):1603-1616 doi:  10.1109/TGRS.2010.2088404
    [4] Demir B, Bruzzone L. A Novel Active Learning Method in Relevance Feedback for Content-based Remote Sensing Image Retrieval[J]. IEEE Transactions on Geoscience and Remote Sensing, 2015, 53(9):2323-2334 https://www.researchgate.net/publication/271426283_An_effective_active_learning_method_for_interactive_content-based_retrieval_in_remote_sensing_images
    [5] Liu T, Zhang L, Li P, et al. Remotely Sensed Image Retrieval Based on Region-Level Semantic Mining[J].EURASIP Journal on Image and Video Preocessing, 2012, 4(1):1-11 doi:  10.1186/1687-5281-2012-4
    [6] Yang Y, Newsam S. Geographic Image Retrieval Using Local Invariant Features[J].IEEE Transactions on Geoscience and Remote Sensing, 2013, 51(2):818-832 doi:  10.1109/TGRS.2012.2205158
    [7] 杨进, 刘建波, 戴芹.一种改进包模型的遥感图像检索方法[J].武汉大学学报·信息科学版, 2014, 39(9):1109-1113 http://ch.whu.edu.cn/CN/abstract/abstract3080.shtml

    Yang Jin, Liu Jianbo, Dai Qin. An Improved Remote Sensing Image Retrieval Method Based on Bag of Word Framework[J]. Geomatics and Information Science of Wuhan University, 2014, 39(9):1109-1113 http://ch.whu.edu.cn/CN/abstract/abstract3080.shtml
    [8] Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[C]. The 26th Conference on Neural Information Processing Systems, Nevada, US, 2012 http://dl.acm.org/citation.cfm?id=3065386
    [9] Zeiler M D, Fergus R. Visualizing and Understanding Convolutional Networks[C]. The 13th European Conference on Computer Vision, Zurich, Switzerland, 2014
    [10] Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[C]. The 3rd International Conference on Learning Representations, San Diego, Canada, 2015 http://arxiv.org/abs/1409.1556
    [11] Donahue J, Jia Y, Vinyals O, et al. Decaf: A Deep Convolutional Activation Feature for Generic Visual Recognition[C]. The 31st International Conference on Machine Learning, Beijing, China, 2014 http://dl.acm.org/citation.cfm?id=3044879
    [12] Oquab M, Bottou L, Laptev I, et al. Learning and Transferring Mid-Level Image Representations using Convolutional Neural Networks[C]. The 27th IEEE Conference on Computer Vision and Pattern Recognition, Columbus, USA, 2014 http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=6909618
    [13] Chatfield K, Simonyan K, Vedaldi A, et al. Return of the Devil in the Details: Delving Deep into Convolutional Networks[C]. The 25th British Machine Vision Conference, Nottingham, England, 2014 http://www.oalib.com/paper/4045769
    [14] Penatti O A B, Nogueira K, Santos J A D. Do Deep Features Generalize from Everyday Objects to Remote Sensing and Aerial Scenes Domains?[C]. The IEEE Conference on Computer Vision and Pattern Recognition Workshops, Boston, MA, 2015 doi:  10.1109/CVPRW.2015.7301382
    [15] Hu F, Xia G S, Hu J, et al.Transferring Deep Convolutional Neural Networks for the Scene Classification of High-Resolution Remote Sensing Imagery[J]. Remote Sensing. 2015, 7(11):14680-14707 doi:  10.3390/rs71114680
    [16] Ng J, Yang F, Davis L. Exploiting Local Features from Deep Networks for Image[C]. The IEEE Conference on Computer Vision and Pattern Recognition Workshops, Boston, MA, 2015 http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=7301272
    [17] Babenko A, Slesarev A, Chigorin A, et al. Neural Codes for Image Retrieval[C]. The 13th European Conference on Computer Vision, Zurich, Switzerland, 2014
    [18] Vedaldi A, Lenc K. MatConvNet: Convolutional Neural Networks for MATLAB[C]. The 23rd ACM International Conference on Multimedia, Brisbane, Austrialia, 2015 doi:  10.1145/2733373.2807412
    [19] Yang Y, Newsam S. Bag-of-Visual-Words and Spatial Extensions for Land-Use Classification[C]. The 18th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems, San Jose, US, 2010 http://dl.acm.org/citation.cfm?id=1869829
    [20] Xia G S, Yang W, Delon J, et al. Structrual High-Resolution Satellite Image Indexing. In Processings of the ISPRS, TC Ⅶ Symposium Part A: 100 Years ISPRS-Advancing Remote Sensing Science[C]. ISPRS TC Ⅶ Symposium-100 Years ISPRS 38, Vienna, Austria, 2010
  • [1] 黄若冰, 贾永红.  利用卷积神经网络和小面元进行人脸图像替换 . 武汉大学学报 ● 信息科学版, 2021, 46(3): 335-340. doi: 10.13203/j.whugis20180500
    [2] 叶昕, 秦其明, 王俊, 郑小坡, 王建华.  利用高分辨率光学遥感图像检测震害损毁建筑物 . 武汉大学学报 ● 信息科学版, 2019, 44(1): 125-131. doi: 10.13203/j.whugis20150490
    [3] 刘文轩, 祁昆仑, 吴柏燕, 吴华意.  基于多任务联合稀疏和低秩表示的高分辨率遥感图像分类 . 武汉大学学报 ● 信息科学版, 2018, 43(2): 297-303. doi: 10.13203/j.whugis20160044
    [4] 吴一全, 陶飞翔, 曹照清.  基于Log-Gabor小波和Krawtchouk矩的遥感图像分类 . 武汉大学学报 ● 信息科学版, 2016, 41(7): 861-867. doi: 10.13203/j.whugis20140234
    [5] 许雪梅, 周立超, 杨兵初, 李梦平, 李丽娴, 尹林子, 丁一鹏.  CIFO:针对显著对象的彩色图像检索方法 . 武汉大学学报 ● 信息科学版, 2015, 40(1): 53-58.
    [6] 杨进, 刘建波, 戴芹.  一种改进包模型的遥感图像检索方法 . 武汉大学学报 ● 信息科学版, 2014, 39(9): 1109-1113. doi: 10.13203/j.whugis20130056
    [7] 吴佳, 蔡之华, 金晓文.  自适应差分演化算法在图像监督分类中的应用 . 武汉大学学报 ● 信息科学版, 2013, 38(1): 23-26.
    [8] 吴一全, 武燕燕.  利用NSCT和Krawtchouk矩进行图像检索 . 武汉大学学报 ● 信息科学版, 2011, 36(6): 691-694.
    [9] 朱先强, 邵振峰, 李德仁.  利用无参数统计特征进行旋转不变纹理图像渐进检索 . 武汉大学学报 ● 信息科学版, 2010, 35(11): 1279-1282.
    [10] 时向勇, 李先华, 郑成建.  基于椭圆曲线密码体制的遥感图像加密算法 . 武汉大学学报 ● 信息科学版, 2010, 35(11): 1309-1313.
    [11] 李先华, 黄微, 罗庆洲, 刘顺喜.  月球表面遥感图像的地形辐射改正原理研究 . 武汉大学学报 ● 信息科学版, 2010, 35(10): 1197-1201.
    [12] 王志强, 傅向华, 赵良辉, 杜文峰.  基于内容的半监督流形图像检索 . 武汉大学学报 ● 信息科学版, 2009, 34(8): 928-931.
    [13] 金大卫, 胡知元.  基于语义的图像检索应用研究 . 武汉大学学报 ● 信息科学版, 2009, 34(10): 1255-1259.
    [14] 王波, 姚宏宇, 李弼程.  一种有效的基于灰度共生矩阵的图像检索方法 . 武汉大学学报 ● 信息科学版, 2006, 31(9): 761-764.
    [15] 李德仁, 宁晓刚.  一种新的基于内容遥感图像检索的图像分块策略 . 武汉大学学报 ● 信息科学版, 2006, 31(8): 659-662.
    [16] 李峰, 曾志明, 付琨, 吴一戎.  遥感影像数据库基于内容检索系统的构建 . 武汉大学学报 ● 信息科学版, 2005, 30(9): 787-790.
    [17] 程起敏, 杨崇俊, 邵振峰.  基于多进制小波变换的渐进式纹理图像检索 . 武汉大学学报 ● 信息科学版, 2005, 30(6): 521-524.
    [18] 曾志明, 李峰, 傅琨, 丁赤飚.  一种大尺寸遥感图像基于内容检索的纹理特征提取算法 . 武汉大学学报 ● 信息科学版, 2005, 30(12): 1080-1083.
    [19] 王峰, 史文中, 程朋根.  遥感图像纠正误差的局部变形改正 . 武汉大学学报 ● 信息科学版, 2001, 26(5): 425-429.
    [20] 陈晓勇.  微机汉字大地测量数据库系统的设计 . 武汉大学学报 ● 信息科学版, 1987, 12(3): 52-63.
  • 加载中
图(5) / 表(4)
计量
  • 文章访问数:  1519
  • HTML全文浏览量:  88
  • PDF下载量:  547
  • 被引次数: 0
出版历程
  • 收稿日期:  2016-05-09
  • 刊出日期:  2018-01-05

基于ImageNet预训练卷积神经网络的遥感图像检索

doi: 10.13203/j.whugis20150498
    基金项目:

    国家自然科学基金 41261091

    江西省教育厅科技项目 GJJ13482

    江西省自然科学基金 20151BAB207062

    作者简介:

    葛芸, 博士生, 讲师, 主要从事遥感图像检索理论和方法研究。geyun@nchu.edu.cn

    通讯作者: 江顺亮, 博士, 教授。jiangshunliang@ncu.edu.cn
  • 中图分类号: TP751

摘要: 高分辨率遥感图像内容复杂,细节信息丰富,传统的浅层特征在描述这类图像上存在一定难度,容易导致检索中存在较大的语义鸿沟。本文将大规模数据集ImageNet上预训练的4种不同卷积神经网络用于遥感图像检索,首先分别提取4种网络中不同层次的输出值作为高层特征,再对高层特征进行高斯归一化,然后采用欧氏距离作为相似性度量进行检索。在UC-Merced和WHU-RS数据集上的一系列实验结果表明,4种卷积神经网络的高层特征中,以CNN-M特征的检索性能最好;与视觉词袋和全局形态纹理描述子这两种浅层特征相比,高层特征的检索平均准确率提高了15.7%~25.6%,平均归一化修改检索等级减少了17%~22.1%。因此将ImageNet上预训练的卷积神经网络用于遥感图像检索是一种有效的方法。

English Abstract

葛芸, 江顺亮, 叶发茂, 许庆勇, 唐祎玲. 基于ImageNet预训练卷积神经网络的遥感图像检索[J]. 武汉大学学报 ● 信息科学版, 2018, 43(1): 67-73. doi: 10.13203/j.whugis20150498
引用本文: 葛芸, 江顺亮, 叶发茂, 许庆勇, 唐祎玲. 基于ImageNet预训练卷积神经网络的遥感图像检索[J]. 武汉大学学报 ● 信息科学版, 2018, 43(1): 67-73. doi: 10.13203/j.whugis20150498
GE Yun, JIANG Shunliang, YE Famao, XU Qingyong, TANG Yiling. Remote Sensing Image Retrieval Using Pre-trained Convolutional Neural Networks Based on ImageNet[J]. Geomatics and Information Science of Wuhan University, 2018, 43(1): 67-73. doi: 10.13203/j.whugis20150498
Citation: GE Yun, JIANG Shunliang, YE Famao, XU Qingyong, TANG Yiling. Remote Sensing Image Retrieval Using Pre-trained Convolutional Neural Networks Based on ImageNet[J]. Geomatics and Information Science of Wuhan University, 2018, 43(1): 67-73. doi: 10.13203/j.whugis20150498
  • 近年来,随着遥感技术的发展,遥感图像分辨率不断提高,数据量急速增长,如何有效地管理利用遥感图像数据,满足用户对数据的使用需求成为研究热点。其中,从海量的遥感图像中有效地检索出感兴趣的目标或场景成为关键问题之一。

    基于内容的图像检索(content-based image retrieval,CBIR)在遥感图像领域得到广泛应用[1-3]。CBIR技术主要通过提取图像的纹理[1]、颜色[2]和形状[3]等底层特征进行检索。但底层特征难以反映高层的语义信息,容易形成较大的语义鸿沟。为了缩小检索中的语义鸿沟,采用相关反馈机制[4]、融合图像底层特征实现区域级语义特征[5]和构建视觉词袋模型[6-7]等都是有效方法。这些检索方法都是基于图像的浅层特征,浅层特征一方面需要人为地提取相关特征,检索性能容易受到干预。另一方面,高分辨率的遥感图像内容复杂,细节信息丰富,浅层特征在描述这类图像时存在一定难度。

    卷积神经网络(convolutional neural networks,CNN)通过建立多层神经网络的训练机制来模拟人脑的学习过程,在处理复杂图像时有一定优势, 特征的提取过程自动完成,减少了人为干预;底层特征通过多层抽象机制形成高层特征,能够有效地缩小语义鸿沟。本文在遥感图像的检索中引入卷积神经网络,提取卷积神经网络中的高层特征,分别比较了不同结构的卷积神经网络提取出的不同层次的CNN特征的检索性能。

    • 卷积神经网络是深度学习中的一种基本模型,是多层次结构的神经网络。卷积神经网络通过局部感知区域、下采样和权值共享等方式,减少了网络学习参数,提高了特征的鲁棒性和稳定性。

      卷积神经网络在手写字符识别、语音识别和图像识别等领域得到广泛应用。2012年卷积神经网络[8]首次用于ImageNet大规模视觉识别挑战赛(ImageNet large scale visual recognition challenge,ILSVRC)并获得冠军,之后卷积神经网络在图像领域受到越来越多的关注。目前大多数卷积神经网络的研究是基于文献[8]提出的网络结构进行改进,比如采用更小的局部感知区域[9]和增加网络的深度[10]等。

      卷积神经网络需要大规模的标签数据训练大量的参数,当数据库图像数目较少时,卷积神经网络的优势得不到体现。针对这种情况,可以考虑在大规模数据集ImageNet上预训练卷积神经网络来完成相应任务。文献[11-13]研究表明,在ImageNet上预训练的卷积神经网络泛化能力强,可以有效地用于SUN-397和PASCAL VOC等数据集的图像分类。文献[14-15]将ImageNet上预训练的卷积神经网络用于遥感图像分类,取得了良好的效果。在图像检索领域,文献[16-17]将ImageNet上预训练的卷积神经网络用于Oxford、Holidays和UKBench等数据集中,和传统的浅层特征相比,卷积神经网络提取的特征在图像检索中的性能得到明显提高。

      本文在ImageNet中预训练不同结构的卷积神经网络,并将预训练的网络结构和参数迁移到遥感图像数据集上,进而提取相应的高层特征进行图像检索。实验结果表明,和浅层特征相比,基于卷积神经网络高层特征的检索性能得到明显改善。

    • 选用四种不同结构的卷积神经网络,分别提取不同的CNN特征。文献[8]提出的卷积神经网络总共包含8层,前面5层为卷积层,后续3层为全连接层。激活函数采用目前深度网络中主流激活函数ReLU(rectification linear unit),下采样采用最大池化(max pooling)方法。全连接层中,第6层和第7层采用dropout策略防止过拟合,特征维数均为4 096维,最后一层采用softmax分类器进行分类,总共有1000个类别。将这个网络模型记为CNN-Alex。

      文献[13]分析了多种结构的网络模型,其中性能较好的CNN-M和文献[9]类似,缩小了局部感知区域,CNN-M与文献[9]的不同之处是减少了第四层卷积层的滤波器数目。文献[10]在CNN-Alex的基础上增加隐层的层数,网络的层次达到16层和19层,将这两种网络模型分别记为CNN-16和CNN-19。

      四种卷积神经网络的结构如表 1所示。滤波器数目和局部感知区域尺寸记为“num×size×size”的形式。以CNN-Alex的结构为例,第一个卷积层conv1中,滤波器数目为96,局部感知区域的尺寸为11×11。pool1~pool5是下采样层,fc6、fc7和fc8为全连接层,ReLU和分类器没有在表中显示。

      表 1  不同卷积神经网络的结构

      Table 1.  Different CNN Architectures

      CNN-Alex CNN-M CNN-16 CNN-19
      conv1 96×11×11 conv1 96×7×7 conv1-1 64×3×3
      conv1-2 64×3×3
      conv1-1 64×3×3
      conv1-2 64×3×3
      pool1 pool1 pool1 pool1
      conv2 256×5×5 conv2 256×5×5 conv2-1 128×3×3
      conv2-2 128×3×3
      conv2-1 128×3×3
      conv2-2 128×3×3
      pool2 pool2 pool2 pool2
      conv3 384×3×3 conv3 512×3×3 conv3-1 256×3×3
      conv3-2 256×3×3
      conv3-3 256×3×3
      conv3-1 256×3×3
      conv3-2 256×3×3
      conv3-3 256×3×3
      conv3-4 256×3×3
      pool3 pool3
      conv4 384×3×3 conv4 512×3×3 conv4-1 512×3×3
      conv4-2 512×3×3
      conv4-3 512×3×3
      conv4-1 512×3×3
      conv4-2 512×3×3
      conv4-3 512×3×3
      conv4-4 512×3×3
      pool4 pool4
      conv5 256×3×3 conv5 512×3×3 conv5-1 512×3×3
      conv5-2 512×3×3
      conv5-3 512×3×3
      conv5-1 512×3×3
      conv5-2 512×3×3
      conv5-3 512×3×3
      conv5-4 512×3×3
      pool5
      fc6 4096
      fc7 4096
      fc8 1000

      卷积神经网络中,最先学习到图像的底层特征,然后逐步形成中级特征,直到抽象出高层特征。高层特征能有效缩小语义鸿沟,因此选用高层特征进行检索。表 1的网络结构中fc8的输出值用于图像分类,因此不考虑fc8的输出值。pool5是对最后一个卷积层进行下采样,它对图像的描述比较全面。为了比较不同高层特征对检索结果的影响,使用pool5、fc6和fc7的输出值作为CNN特征并应用于遥感图像检索。

    • 通过数据集ImageNet预训练§2.1介绍的四种卷积神经网络,将其用于遥感图像检索,检索过程如图 1所示,检索步骤如下:

      图  1  检索流程

      Figure 1.  Flowchart of Retrieval

      步骤1  预训练卷积神经网络。

      预训练卷积神经网络的数据集统一采用ImageNet数据集的子集ILSVRC2012。ILSVRC2012包含1 000种图像分类,约有1.3百万张训练图片、5万验证图片和10万测试图片。

      参数更新采用随机梯度下降算法,超参数的设置如下:冲量项0.9,权值衰减0.000 5,学习率初始值为0.01,并在训练过程中动态调整。每层权重初始值服从标准差为0.01的零均值高斯分布。conv2、conv4、conv5以及全连接层的偏置初始值为1,其他层次的偏置初始值为0。

      步骤2  将预训练的网络结构和参数分别迁移到遥感图像库M和查询图像q

      遥感图像库M中每幅图像输入到预训练的网络中,提取网络后面层次(pool5或者fc6或者fc7)的输出值作为CNN特征,形成遥感图像CNN特征库。pool5层是对最后一个卷积层进行最大池化后的结果,fc6和fc7的输出结果为:

      $$ {\mathit{\boldsymbol{Y}}_k} = r\left( {{\mathit{\boldsymbol{W}}_k} \times {\mathit{\boldsymbol{Y}}_{k-1}} + {\mathit{\boldsymbol{B}}_k}} \right) $$ (1)

      式中,Yk代表第k层的输出值;Yk-1代表第k-1层的输出值;WkBk分别代表第k层训练得到的权重和偏置,这里k取值为6和7。激活函数r为ReLU函数。

      查询图像q输入到预训练的网络中,提取pool5或者fc6或者fc7的输出值作为查询图像的高层特征,记为q-CNN特征。

      步骤3  分别对CNN特征库和q的特征q-CNN进行归一化操作。

      归一化过程采用常用的高斯方法。将CNN特征库看作是一个矩阵,图像库中的m幅图像用{I1I2,…,Ii, …,Im}表示,一幅图像Ii的某个l维特征向量表示为:

      Fi=[fi1 fi2fijfil]

      式中,fijFi的第j个特征元素,将图像库中所有图像的特征向量看成一个大小为m×l的矩阵FF的每一行是长度为l的特征序列。计算F每一行特征分量对应的平均值μi和标准差σi,通过式(2)将特征向量进行归一化和平移,使得绝大部分的值在[0, 1]范围。

      $$ f_i^*f = \frac{{1 + \left( {{f_{ij}}-\mu } \right)/3{\sigma _i}}}{2} $$ (2)

      q的特征向量q-CNN为:

      Fq=[fq1 fq2fqjfql]

      根据高斯方法对Fq进行归一化和平移,使得绝大部分值在[0, 1]范围。

      步骤4  计算q和M中图像的相似度,按需求返回最相似的n幅图像。

      根据欧氏距离计算q与M中图像的相似度,得到q和M中图像的一系列相似度,并按需求返回距离最小,即最相似的n幅图像。

    • 预训练卷积神经网络采用ILSVRC2012数据集,使用VGG小组开发的MatConvNet[18]提取预训练网络模型,并将UC-Merced[19]和WHU-RS[20]作为目标数据集。UC-Merced收集了航空正射图像,总共21类场景,每类有100幅图像。WHU-RS收集了从Google Earth下载的图像,总共19类场景,每类有50幅图像。图 2第1行显示UC-Merced示例图像,第2行显示WHU-RS示例图像。

      图  2  UC-Merced和WHU-RS示例图像

      Figure 2.  Examples of the UC-Merced Dataset and the WHU-RS Dataset

      为了评价检索的有效性,实验计算了图像的平均准确率(mean average precision, mAP)和平均归一化修改检索等级(average normalize modified retrieval rank,ANMRR)[6],mAP值越大,检索的平均准确率越高;ANMRR取值越小,表示检索出来的相关图像越靠前。实验中还比较了采用图像检索中应用广泛的性能评价准则查准率-查全率曲线。

    • 表 2表 3分别显示了UC-Merced和WHU-RS数据集中不同特征检索图像的mAP值。由表 2表 3可以看出,每种网络的fc6对应的mAP值在3层中都最好。4种网络结构中,CNN-M、CNN-16和CNN-19都在CNN-Alex上进行改进,三者的mAP值也相应得到提高。

      表 2  UC-Merced不同特征的mAP /%

      Table 2.  mAPs for Different Features on the UC-Merced Dataset/%

      类别 pool5 fc6 fc7
      CNN-Alex 45.9 52.4 49.3
      CNN-M 50.6 55.8 54.9
      CNN-16 53.6 55.3 53.3
      CNN-19 52.3 54.6 52.0
      BoVW[6] 30.2

      表 3  WHU-RS不同特征的mAP/ %

      Table 3.  mAPs for Different Features on the WHU-RS Dataset/%

      类别 pool5 fc6 fc7
      CNN-Alex 55.1 62.3 62.2
      CNN-M 59.2 65.6 64.6
      CNN-16 58.1 64.5 63.3
      CNN-19 56.6 62.5 60.8
      BoVW [6] 38.9

      文献[6]使用视觉词袋(bag of visual words,BoVW)进行遥感图像检索,并取得良好的性能。表 2中,CNN特征最差的mAP值(CNN-Alex中的pool5)比BoVW的mAP值提高了15.7%,最好的mAP值(CNN-M中的fc6)比BoVW的mAP值提高了25.6%。表 3中,CNN特征最差的mAP值(CNN-Alex中的pool5)比BoVW的mAP值提高了16.2%,最好的mAP(CNN-M中的fc6)比BoVW的mAP值提高了26.7%。可见遥感图像检索中,与采用BoVW的方法相比,采用CNN特征明显改善图像的检索性能。由于CNN特征中fc6对应的结果最好,因此后面实验中,选用fc6的输出结果。并将4种网络中fc6的输出值分别记为CNN-Alex特征、CNN-M特征、CNN-16特征和CNN-19特征。

    • 图 3图 4分别显示了UC-Merced和WHU-RS数据集中不同类别图像的检索结果。由图 3可以看出,UC-Merced中每类图像CNN特征的mAP值都优于BoVW的mAP值。四种CNN特征的mAP值都比较接近,其中CNN-Alex特征检索性能相对较差,CNN-M特征在大多数类别中的检索性能都比较好,CNN-16特征和CNN-19特征应用于遥感图像检索时,有些类别图像检索性能突出,比如海港和立交桥;而有些类别图像检索性能表现较差,比如棒球内场,从而导致CNN-16和CNN-19的平均mAP值低于CNN-M。

      图  3  UC-Merced每类图像不同特征的mAP

      Figure 3.  Per Class mAPs for Different Features on the UC-Merced Dataset

      图  4  WHU-RS每类图像不同特征的mAP

      Figure 4.  Per Class mAPs for Different Features on the WHU-RS Dataset

      图 4图 3结果比较类似。另外,从图 4中可以看出,在WHU-RS数据集中,对于绝大多数类别图像来说,用CNN特征检索的mAP值优于用BoVW进行检索的mAP值。但是对于有些图像类别,使用BoVW和使用CNN特征的检索性能接近,甚至优于CNN特征(比如机场和牧场),这可能与此类图像与ImageNet中图像相差较大,导致泛化能力降低有关。

    • 表 4比较了UC-Merced和WHU-RS数据集中不同特征的特征维数和ANMRR值。4种CNN特征中,以CNN-M特征的ANMRR值最小,即检索的相关图像排序更靠前。文献[1]是基于全局形态纹理描述子的遥感图像检索,它的ANMRR值为0.575,只比文献[6]减少了1.6%,表明仅在浅层特征的基础上进行改进对检索性能的提高幅度较小。

      表 4  特征维数和ANMRR的比较

      Table 4.  Feature Dimensions and ANMRRs for Different Features

      类别 特征维数 ANMRR
      (UC-Merced)
      ANMRR
      (WHU-RS)
      CNN-Alex 4 096 0.405 0.308
      CNN-M 4 096 0.370 0.278
      CNN-16 4 096 0.374 0.291
      CNN-19 4 096 0.380 0.308
      BoVW [6] 150 0.601 0.525
      BoVW [7] 15 000 0.591 0.492
      文献[1] 62 0.575 -

      与文献[1, 6]相比,虽然CNN特征维数较高,但是CNN特征的ANMRR值明显优于浅层特征的ANMRR值。以UC-Merced为例,CNN特征中最糟糕的结果(CNN-Alex特征的ANMRR值)比BoVW和全局形态纹理描述子的结果分别降低了18.6%和17%,CNN特征中最好的结果(CNN-M特征的ANMRR值)比BoVW和全局形态纹理描述子的结果分别降低了22.1%和20.5%。这表明通过预训练的卷积神经网络提取遥感图像中的CNN特征检索到的相关图像排序更靠前。

    • 图 5比较了UC-Merced和WHU-RS中不同特征的查准率-查全率曲线。从图 5可以看出,CNN特征的检索效果优于BoVW的检索效果。对于BoVW而言,当返回图像数目由2逐步增大到20时,检索性能明显降低。而CNN特征检索的效果则更稳定,即使返回的图像数目较多,曲线下降的速率仍然比较平缓。对于四种CNN特征而言,当检索返回图像数目较少时,四种CNN特征的结果比较接近。图 5(a)中,随着返回图像数目的增多,3种改进的CNN特征的检索性能优于CNN-Alex特征,其中以CNN-M特征的检索效果最好。图 5(b)中,CNN-Alex特征和CNN-19特征的检索性能很接近,CNN-M特征的优势更明显。

      图  5  UC-Merced和WHU-RS数据集查准率-查全率曲线

      Figure 5.  Precision-Recall Curves for Different Features on the UC-Merced Dataset and WHU-RS Dataset

      一系列实验结果可以看出,从ImageNet数据集上预训练的卷积神经网络提取遥感图像的CNN特征,用于图像检索能够有效提高检索性能。CNN特征在mAP、ANMRR和查准率-查全率曲线上优于传统的基于浅层特征的检索方法。

    • ImageNet数据集规模大,基于其训练出来的网络具有较强的泛化能力,可以有效地迁移到遥感图像数据集中。本文将ImageNet数据集上预训练的四种卷积神经网络(CNN-Alex、CNN-M、CNN-16和CNN-19)用于遥感图像检索,提取遥感图像pool5、fc6和fc7三层的输出值作为CNN特征。通过UC-Merced和WHU-RS数据集上的一系列实验结果表明:pool5、fc6和fc7三层中,fc6的检索结果最好;4种网络中,CNN-M的检索性能更突出。与浅层特征相比,CNN特征检索的图像准确率更高,相关图像排序更靠前;当返回图像数目增多时,CNN特征的检索结果更稳定。以UC-Merced数据集为例,CNN特征mAP值提高的最小幅度为15.7%,最大幅度为25.6%;ANMRR值减少的最小幅度为17%,最大幅度为22.1%。因此,将预训练的卷积神经网络用于提取遥感图像的CNN特征能够有效地改进遥感图像的检索性能。下一步考虑通过数据增强等方式增加遥感图像的数量,在遥感图像库中训练卷积神经网络来实现图像的分类和检索等工作。

参考文献 (20)

目录

    /

    返回文章
    返回