留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

面向小样本高光谱影像分类的轻量化关系网络

孙一帆 余旭初 谭熊 刘冰 高奎亮

孙一帆, 余旭初, 谭熊, 刘冰, 高奎亮. 面向小样本高光谱影像分类的轻量化关系网络[J]. 武汉大学学报 ● 信息科学版, 2022, 47(8): 1336-1348. doi: 10.13203/j.whugis20210157
引用本文: 孙一帆, 余旭初, 谭熊, 刘冰, 高奎亮. 面向小样本高光谱影像分类的轻量化关系网络[J]. 武汉大学学报 ● 信息科学版, 2022, 47(8): 1336-1348. doi: 10.13203/j.whugis20210157
SUN Yifan, YU Xuchu, TAN Xiong, LIU Bing, GAO Kuiliang. Lightweight Relational Network for Small Sample Hyperspectral Image Classification[J]. Geomatics and Information Science of Wuhan University, 2022, 47(8): 1336-1348. doi: 10.13203/j.whugis20210157
Citation: SUN Yifan, YU Xuchu, TAN Xiong, LIU Bing, GAO Kuiliang. Lightweight Relational Network for Small Sample Hyperspectral Image Classification[J]. Geomatics and Information Science of Wuhan University, 2022, 47(8): 1336-1348. doi: 10.13203/j.whugis20210157

面向小样本高光谱影像分类的轻量化关系网络

doi: 10.13203/j.whugis20210157
基金项目: 

国家自然科学基 41801388

详细信息
    作者简介:

    孙一帆,硕士,研究方向为遥感影像处理与分析。sincere_sunyf@163.com

  • 中图分类号: P237

Lightweight Relational Network for Small Sample Hyperspectral Image Classification

Funds: 

The National Natural Science Foundation of China 41801388

More Information
    Author Bio:

    SUN Yifan, master, specializes in remote sensing image processing and analysis. E-mail: sincere_sunyf@163.com

  • 摘要: 近年来,基于深度学习的高光谱影像分类取得重要进展,针对高光谱影像分类训练样本稀缺的情况,提出一种结合注意力机制的轻量化关系网络(lightweight attention depth-wise relation network, LWAD-RN), 以解决高光谱影像小样本分类问题。该网络由嵌入层和关联层组成,在嵌入层采用结合注意力机制的轻量化卷积神经网络提取像元特征,同时引入稠密网络结构;在关联层计算关联值进行分类,并采用基于任务的模式训练网络。利用3组公开的高光谱影像数据进行对比实验,结果表明,LWAD-RN能够有效提升小样本条件下(每类5个训练样本)的分类精度,同时提高了模型训练和分类效率。
  • 图  1  注意力模块示意图

    Figure  1.  Schematic Diagram of Attention Module

    图  2  常规卷积操作示意图

    Figure  2.  Schematic Diagram of Conventional Convolution

    图  3  深度可分离卷积操作示意图

    Figure  3.  Schematic Diagram of Depth-Wise Separable Convolution

    图  4  面向高光谱影像分类的关系网络

    Figure  4.  Relation Network for Hyperspectral Image Classification

    图  5  嵌入层和关联层结构

    Figure  5.  Architecture of Embedding Layer and Relation Layer

    图  6  不同维度系数t在PU数据集上的分类精度

    Figure  6.  Classification Accuracy of Different Dimension Coefficient t on PU Dataset

    图  7  不同网络的性能变化

    Figure  7.  Variation in Performance of Different Network

    图  8  基于光谱注意力的光谱重标定示意图

    Figure  8.  Spectral Recalibration Based on Spectral Attention Module

    图  9  基于空间注意力的空间区域聚焦示意图

    Figure  9.  Spatial Region Focus Based on Spatial Attention Module

    图  10  不同网络在PU数据集上的分类图

    Figure  10.  Classification Maps of Different Networks on PU Dataset

    图  11  不同网络在PC数据集上的分类图

    Figure  11.  Classification Maps of Different Networks on PC Dataset

    图  12  不同网络在SA数据集上的分类图

    Figure  12.  Classification Maps of Different Networks on SA Dataset

    图  13  两组训练集t-SNE可视化结果

    Figure  13.  t-SNE Visualization Results of Two Datasets

    图  14  网络在两组训练集上训练时的损失函数曲线

    Figure  14.  Loss Function Curve of the Network Trained on Two Datasets

    表  1  PU、PC、SA数据集

    Table  1.   PU, PC, SA Datasets

    参数 PU PC SA
    像素分辨率 610×340 1 096×492 512×217
    光谱范围/nm 430~860 430~860 400~2 500
    波段数目 103 102 204
    空间分辨率/m 1.3 1.3 3.7
    传感器 ROSIS ROSIS AVIRIS
    类别数量 9 9 16
    标记样本总数 42 776 103 539 54 129
    训练集样本总数 5×9 = 45 5×9 = 45 5×16 = 80
    测试集样本总数 42 731 103 494 54 049
    下载: 导出CSV

    表  2  不同尺寸数据立方体作为输入在PU、PC、SA数据集上的分类精度/%

    Table  2.   Classification Accuracy of Different Cube's Sizes as Input on PU, PC, SA Dataset/%

    数据集 9×9 11×11 13×13 15×15 17×17 19×19
    PU 85.05 86.58 88.10 90.48 82.39 81.89
    PC 97.13 98.14 98.06 97.15 96.85 96.24
    SA 88.73 89.32 90.72 87.38 91.18 89.67
    下载: 导出CSV

    表  3  不同算法在PU数据集上的分类结果

    Table  3.   Classification Results of Different Algorithms on PU Dataset

    类别 SVM/% LapSVM/% Res-3D-CNN/% SS-CNN/% DCGAN+SEMI/% RN-FSC/% LWAD-RN/%
    1 56.36 98.24 71.67 89.89 92.18 87.28 90.56
    2 58.29 81.51 88.96 84.42 90.32 84.33 85.89
    3 71.56 30.46 23.30 59.91 41.80 90.42 83.28
    4 91.37 63.13 88.86 57.86 86.39 78.09 98.40
    5 98.49 91.25 89.39 97.13 83.30 99.56 99.63
    6 32.55 37.51 37.88 53.03 43.63 63.25 98.65
    7 95.26 37.45 38.62 36.12 44.54 52.09 99.09
    8 72.83 60.56 42.59 72.75 62.11 84.81 90.98
    9 99.54 99.86 63.13 48.69 66.33 95.94 99.89
    OA/% 62.38 67.23 65.44 71.73 73.52 81.94 90.48
    AA/% 74.66 76.86 60.49 66.64 67.84 81.75 94.04
    Kappa/% 53.21 58.82 55.63 63.37 66.07 75.84 87.73
    F1 0.632 6 0.685 6 0.659 1 0.724 3 0.736 8 0.824 9 0.914 5
    下载: 导出CSV

    表  4  不同算法在PC数据集上的分类结果

    Table  4.   Classification Results of Different Algorithms on PC Dataset

    类别 SVM/% LapSVM/% Res-3D-CNN/% SS-CNN/% DCGAN+SEMI/% RN-FSC/% LWAD-RN/%
    1 99.95 99.99 99.99 99.17 98.13 100.00 100.00
    2 94.68 94.75 74.17 93.34 98.15 99.53 93.30
    3 40.86 60.84 80.24 75.17 65.81 67.60 81.17
    4 56.47 14.57 27.11 68.85 55.64 72.43 95.93
    5 19.51 65.47 23.08 38.25 53.42 96.91 96.63
    6 63.66 61.85 67.69 31.42 84.21 85.86 99.49
    7 78.21 92.83 77.38 75.82 99.37 85.55 92.37
    8 88.66 94.55 98.88 99.57 99.02 99.94 98.65
    9 99.76 99.86 87.61 95.60 77.46 91.87 100.00
    OA/% 83.11 86.43 80.03 89.27 91.85 96.36 98.14
    AA/% 71.31 76.08 70.69 80.80 81.24 88.86 95.28
    Kappa/% 76.62 81.22 73.16 88.30 91.02 95.98 96.79
    F1 0.8342 0.875 2 0.806 1 0.805 3 0.926 7 0.968 8 0.982 6
    下载: 导出CSV

    表  5  不同算法在SA数据集上的分类结果

    Table  5.   Classification Results of Different Algorithms on SA Dataset

    类别 SVM/% LapSVM/% Res-3D-CNN/% SS-CNN/% DCGAN+SEMI/% RN-FSC/% LWAD-RN/%
    1 94.53 78.54 39.47 93.02 56.94 99.26 99.56
    2 92.23 98.79 74.02 92.51 71.53 100.00 94.95
    3 66.24 82.83 49.33 84.31 87.44 97.87 89.02
    4 99.78 97.23 88.71 86.43 76.45 99.50 100.00
    5 98.24 88.04 77.50 90.91 94.95 97.81 98.81
    6 98.56 100.00 97.52 99.55 99.47 99.35 97.34
    7 90.61 89.24 61.53 97.54 89.63 100.00 99.02
    8 89.25 63.45 68.93 73.52 70.93 66.24 86.49
    9 95.42 77.53 92.83 93.81 92.89 97.34 87.90
    10 77.84 59.42 69.33 77.21 63.58 93.66 86.69
    11 96.23 39.45 59.07 42.37 83.81 73.96 98.78
    12 99.62 92.84 70.59 95.85 97.33 99.84 96.89
    13 99.21 47.12 75.38 99.23 97.53 100.00 98.36
    14 89.22 92.24 89.12 92.98 87.09 96.39 96.73
    15 22.51 49.81 47.62 50.37 74.78 68.85 87.27
    16 92.12 91.12 88.90 80.54 77.17 99.89 85.06
    OA/% 82.86 77.12 67.60 79.23 80.11 86.99 91.48
    AA/% 87.40 81.23 71.87 84.38 82.60 93.12 93.93
    Kappa/% 79.56 74.21 64.28 77.04 77.86 85.44 90.54
    F1 0.829 3 0.779 6 0.682 1 0.801 9 0.810 2 0.872 4 0.916 5
    下载: 导出CSV

    表  6  不同网络的训练时间和测试时间比较

    Table  6.   Comparison of Training Time and Testing Time of Different Networks

    不同网络 待训练参数量 PU数据集 PC数据集 SA数据集
    训练时间/s 测试时间/s 训练时间/s 测试时间/s 训练时间/s 测试时间/s
    网络+conv 117 664 94.92 49.95 95.50 113.62 398.03 115.18
    网络+lw 85 400 83.47 46.52 81.60 103.73 307.97 103.73
    网络+attn+lw 95 569 89.61 47.14 90.16 107.37 312.38 109.88
    网络+attn+dense+lw 95 569 87.92 50.76 86.03 108.51 309.86 110.93
    下载: 导出CSV

    表  7  LWAD-RN模型在PU两组训练集上的性能表现

    Table  7.   Performance of the LWAD-RN Model on Two Datasets

    评价指标 训练样本集1 训练样本集2
    OA/% 91.78 80.69
    AA/% 93.23 90.33
    Kappa/% 89.25 75.81
    F1 0.919 5 0.820 5
    下载: 导出CSV
  • [1] Agarwal A, El-Ghazawi T, El-Askary H, et al. Efficient Hierarchical-PCA Dimension Reduction for Hyperspectral Imagery[C]// IEEE International Symposium on Signal Processing and Information Technology, Giza, Egypt, 2007
    [2] Li C H, Chu H S, Kuo B C, et al. Hyperspectral Image Classification Using Spectral and Spatial Information Based Linear Discriminant Analysis[C]//IEEE International Geoscience and Remote Sensing Symposium, Vancouver, BC, Canada, 2011
    [3] Benediktsson J A, Palmason J A, Sveinsson J R. Classification of Hyperspectral Data from Urban Areas Based on Extended Morphological Profiles[J]. IEEE Transactions on Geoscience and Remote Sensing, 2005, 43(3): 480-491 doi:  10.1109/TGRS.2004.842478
    [4] 职露, 余旭初, 邹滨, 等. 多层级二值模式的高光谱影像空-谱分类[J]. 武汉大学学报·信息科学版, 2019, 44(11): 1659-1666 doi:  10.13203/j.whugis20180004

    Zhi Lu, Yu Xuchu, Zou Bin, et al. A Multi-layer Binary Pattern Based Method for Hyperspectral Imagery Classification Using Combined Spatial-Spectral Characteristics[J]. Geomatics and Information Science of Wuhan University, 2019, 44(11): 1659-1666 doi:  10.13203/j.whugis20180004
    [5] Camps-Valls G, Bruzzone L. Kernel-Based Methods for Hyperspectral Image Classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2005, 43(6): 1351-1362 doi:  10.1109/TGRS.2005.846154
    [6] Ren Y M, Zhang Y N, Wei W, et al. A Spectral-Spatial Hyperspectral Data Classification Approach Using Random Forest with Label Constraints[C]//IEEE Workshop on Electronics, Computer andApplications, Ottawa, ON, 2014
    [7] Chen Y S, Lin Z H, Zhao X, et al. Deep Learning-Based Classification of Hyperspectral Data[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2014, 7(6): 2094-2107 doi:  10.1109/JSTARS.2014.2329330
    [8] Hu W, Huang Y Y, Wei L, et al. Deep Convolutional Neural Networks for Hyperspectral Image Classification[J]. Journal of Sensors, 2015: 258619
    [9] Chen Y S, Zhao X, Jia X P. Spectral–Spatial Classification of Hyperspectral Data Based on Deep Belief Network[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2015, 8(6): 2381-2392 doi:  10.1109/JSTARS.2015.2388577
    [10] Mou Lichao, Ghamisi P, Zhu Xiaoxiang. Deep Recurrent Neural Networks for Hyperspectral Image Classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(7): 3639-3655 doi:  10.1109/TGRS.2016.2636241
    [11] Yue J, Zhao W Z, Mao S J, et al. Spectral-Spatial Classification of Hyperspectral Images Using Deep Convolutional Neural Networks[J]. Remote Sensing Letters, 2015, 6(6): 468-477 doi:  10.1080/2150704X.2015.1047045
    [12] Zhang M M, Li W, Du Q. Diverse Region-Based CNN for Hyperspectral Image Classification[J]. IEEE Transactions on Image Processing, 2018, 27: 2623-2634 doi:  10.1109/TIP.2018.2809606
    [13] Zhang H K, Li Y, Zhang Y Z, et al. Spectral-Spatial Classification of Hyperspectral Imagery Using a Dual-Channel Convolutional Neural Network[J]. Remote Sensing Letters, 2017, 8(5): 438-447 doi:  10.1080/2150704X.2017.1280200
    [14] Chen Y S, Jiang H L, Li C Y, et al. Deep Feature Extraction and Classification of Hyperspectral Images Based on Convolutional Neural Networks[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(10): 6232-6251 doi:  10.1109/TGRS.2016.2584107
    [15] 刘冰, 余旭初, 张鹏强, 等. 联合空-谱信息的高光谱影像深度三维卷积网络分类[J]. 测绘学报, 2019, 48(1): 53-63 https://www.cnki.com.cn/Article/CJFDTOTAL-CHXB201901008.htm

    Liu Bing, Yu Xuchu, Zhang Pengqiang, et al. Deep 3D Convolutional Network Combined with Spatial-Spectral Features for Hyperspectral Image Classification[J]. Acta Geodaetica et Cartographica Sinica, 2019, 48(1): 53-63 https://www.cnki.com.cn/Article/CJFDTOTAL-CHXB201901008.htm
    [16] Xu Q, Xiao Y, Wang D Y, et al. CSA-MSO3DCNN: Multiscale Octave 3D CNN with Channel and Spatial Attention for Hyperspectral Image Classification[J]. Remote Sensing, 2020, 12(1): 188 doi:  10.3390/rs12010188
    [17] 高奎亮, 余旭初, 张鹏强, 等. 利用胶囊网络实现高光谱影像空谱联合分类[J]. 武汉大学学报·信息科学版, 2022, 47(3): 428-437 doi:  10.13203/j.whugis20200008

    Gao Kuiliang, Yu Xuchu, Zhang Pengqiang, et al. Hyperspectral Image Spatial-Spectral Classification Using Capsule Network Based Method[J]. Geomatics and Information Science of Wuhan University, 2022, 47(3): 428-437 doi:  10.13203/j.whugis20200008
    [18] Samat A, Li J, Liu S C, et al. Improved Hyperspectral Image Classification by Active Learning Using Pre-Designed Mixed Pixels[J]. Pattern Recognition, 2016, 51: 43-58 doi:  10.1016/j.patcog.2015.08.019
    [19] Liu B, Yu X C, Zhang P Q, et al. A Semi-Supervised Convolutional Neural Network for Hyperspectral Image Classification[J]. Remote Sensing Letters, 2017, 8(9): 839-848 doi:  10.1080/2150704X.2017.1331053
    [20] Gao K L, Liu B, Yu X C, et al. Deep Relation Network for Hyperspectral Image Few-Shot Classification[J]. Remote Sensing, 2020, 12(6): 923 doi:  10.3390/rs12060923
    [21] Jiao L C, Liang M M, Chen H, et al. Deep Fully Convolutional Network-Based Spatial Distribution Prediction for Hyperspectral Image Classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(10): 5585-5599 doi:  10.1109/TGRS.2017.2710079
    [22] Li Z, Zhou F, Chen F, et al. Meta-SGD: Learning to Learn Quickly for Few Shot Learning[J]. arXiv, 2017, DOI: 1707.09835
    [23] Xu S H, Mu X D, Chai D, et al. Remote Sensing Image Scene Classification Based on Generative Adversarial Networks[J]. Remote Sensing Letters, 2018, 9(7): 617-626 doi:  10.1080/2150704X.2018.1453173
    [24] 刘冰, 左溪冰, 谭熊, 等. 高光谱影像分类的深度少样例学习方法[J]. 测绘学报, 2020, 49(10): 1331-1342 doi:  10.11947/j.AGCS.2020.20190486

    Liu Bing, Zuo Xibing, Tan Xiong, et al. A Deep Few-Shot Learning Algorithm for Hyperspectral Image Classification[J]. Acta Geodaetica et Cartographica Sinica, 2020, 49(10): 1331-1342 doi:  10.11947/j.AGCS.2020.20190486
    [25] Wang Q, Liu S T, Chanussot J, et al. Scene Classification with Recurrent Attention of VHR Remote Sensing Images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(2): 1155-1167 doi:  10.1109/TGRS.2018.2864987
    [26] Hu J, Shen L, Albanie S, et al. Squeeze-and-Excitation Networks[J]. arXiv, 2017, DOI: 1709.01507
    [27] Mou L C, Zhu X X. Learning to Pay Attention on Spectral Domain: A Spectral Attention Module-Based Convolutional Network for HyperspectralImage Classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(1): 110-122 doi:  10.1109/TGRS.2019.2933609
    [28] Sun H, Zheng X T, Lu X Q, et al. Spectral–Spatial Attention Network for Hyperspectral Image Classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(5): 3232-3245 doi:  10.1109/TGRS.2019.2951160
    [29] Lu Z Y, Xu B, Sun L, et al. 3-D Channel and Spatial Attention Based Multiscale Spatial-Spectral Residual Network for Hyperspectral Image Classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13: 4311-4324 doi:  10.1109/JSTARS.2020.3011992
    [30] Iandola F N, Han S, Moskewicz M W, et al. SqueezeNet: AlexNet-Level Accuracy with 50x fewer Parameters and < 0.5 MB Model Size[J]. arXiv, 2016, DOI: 1602.07360
    [31] Howard G, Zhu, Chen B, et al. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Application[J]. CoRR, 2017, DOI: 1704.04861
    [32] Zhang Xiangyu, Zhou Xinyu, Lin Mengxiao, et al. ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices[J]. CoRR, 2017, DOI: 1707.01083
    [33] Chollet F. Xception: Deep Learning with Depthwise Separable Convolutions[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, USA, 2017
    [34] Ioffe S, Szegedy C. Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift[J]. arXiv, 2015, DOI: 1502.03167
    [35] Nair V, Hinton G E. Rectified Linear Units Improve Restricted Boltzmann Machines Vinod Nair[C]//International Conference on International Conference on Machine Learning. Omnipress, Haifa, Israel, 2010
    [36] Huang G, Liu Z, van der Maaten L, et al. Densely Connected Convolutional Networks[C]// EEE Conference on Computer Vision and Pattern Recognition, Honolulu, HI, USA, 2017
    [37] Wang L G, Hao S Y, Wang Q M, et al. Semi-Supervised Classification for Hyperspectral Imagery Based on Spatial-Spectral Label Propagation[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2014, 97: 123-137 doi:  10.1016/j.isprsjprs.2014.08.016
    [38] Salimans T, Goodfellow I, Zaremba W, et al. Improved Techniques for Training GANs[J]. arXiv 2016, DOI: 1606.03498
  • [1] 梁烽, 张瑞祥, 柴英特, 陈金勇, 茹国宝, 杨文.  一种结合上下文与边缘注意力的SAR图像海陆分割深度网络方法 . 武汉大学学报 ● 信息科学版, 2022, 0(0): 0-0. doi: 10.13203/j.whugis20210078
    [2] 高奎亮, 余旭初, 张鹏强, 谭熊, 刘冰.  利用胶囊网络实现高光谱影像空谱联合分类 . 武汉大学学报 ● 信息科学版, 2022, 47(3): 428-437. doi: 10.13203/j.whugis20200008
    [3] 周于涛, 吴华意, 成洪权, 郑杰, 李学锡.  结合自注意力机制和结伴行为特征的行人轨迹预测模型 . 武汉大学学报 ● 信息科学版, 2020, 45(12): 1989-1996. doi: 10.13203/j.whugis20200159
    [4] 眭海刚, 黄立洪, 刘超贤.  利用具有注意力的Mask R-CNN检测震害建筑物立面损毁 . 武汉大学学报 ● 信息科学版, 2020, 45(11): 1660-1668. doi: 10.13203/j.whugis20200158
    [5] 赵波, 苏红军, 蔡悦.  一种切空间协同表示的高光谱遥感影像分类方法 . 武汉大学学报 ● 信息科学版, 2018, 43(4): 555-562, 604. doi: 10.13203/j.whugis20150579
    [6] 鲍蕊, 薛朝辉, 张像源, 苏红军, 杜培军.  综合聚类和上下文特征的高光谱影像分类 . 武汉大学学报 ● 信息科学版, 2017, 42(7): 890-896. doi: 10.13203/j.whugis20150043
    [7] 白璘, 刘盼芝, 惠萌.  利用小波核最小噪声分离进行高光谱影像SVM分类 . 武汉大学学报 ● 信息科学版, 2016, 41(5): 624-628,644. doi: 10.13203/j.whugis20140209
    [8] 王凯, 舒宁, 孔祥兵, 李亮.  一种多特征转换的高光谱影像自适应分类方法 . 武汉大学学报 ● 信息科学版, 2015, 40(5): 612-616. doi: 10.13203/j.whugis20130384
    [9] 臧天宁, 云晓春, 张永铮, 门朝光.  僵尸网络关系云模型分析算法 . 武汉大学学报 ● 信息科学版, 2012, 37(2): 247-251.
    [10] 谭琨, 杜培军, 王小美.  利用分离性测度多类支持向量机进行高光谱遥感影像分类 . 武汉大学学报 ● 信息科学版, 2011, 36(2): 171-175.
    [11] 陶建斌, 舒宁, 沈照庆.  利用互信息改进遥感影像朴素贝叶斯网络分类器 . 武汉大学学报 ● 信息科学版, 2010, 35(2): 228-232.
    [12] 沈照庆, 舒宁, 陶建斌.  一种基于NPA的加权“1 V m”SVM高光谱影像分类算法 . 武汉大学学报 ● 信息科学版, 2009, 34(12): 1444-1447.
    [13] 孙德勇, 李云梅, 王桥, 乐成峰.  利用高光谱数据估算太湖水体CDOM浓度的神经网络模型 . 武汉大学学报 ● 信息科学版, 2009, 34(7): 851-855.
    [14] 严勇, 李清泉, 孙久运.  投影寻踪学习网络的遥感影像分类 . 武汉大学学报 ● 信息科学版, 2007, 32(10): 876-879.
    [15] 李新双, 张良培, 李平湘, 吴波.  基于小波分量特征值匹配的高光谱影像分类 . 武汉大学学报 ● 信息科学版, 2006, 31(3): 274-277.
    [16] 唐秋华, 周兴华, 丁继胜, 刘保华.  学习向量量化神经网络在多波束底质分类中的应用研究 . 武汉大学学报 ● 信息科学版, 2006, 31(3): 229-232.
    [17] 沈未名, 仇彤, 曾勇, 张华.  基于神经网络的矢量量化与遥感影像有失真压缩编码 . 武汉大学学报 ● 信息科学版, 1996, 21(2): 124-127.
    [18] 韦豪东, 易尧华, 余长慧, 林立宇.  融合注意力与序列单元的文本超分辨率 . 武汉大学学报 ● 信息科学版, 0, 0(0): 0-0. doi: 10.13203/j.whugis20220158
    [19] 高贤君, 冉树浩, 张广斌, 杨元维.  基于多特征融合与对象边界联合约束网络的建筑物提取 . 武汉大学学报 ● 信息科学版, 0, 0(0): -. doi: 10.13203/j.whugis20210520
    [20] 任诗曼, 朱军, 方铮, 李闯农, 梁策, 谢亚坤, 李维炼, 张天奕.  联合多尺度注意力机制与边缘约束的SPOT7影像林地提取方法 . 武汉大学学报 ● 信息科学版, 0, 0(0): 0-0. doi: 10.13203/j.whugis20210251
  • 加载中
图(14) / 表(7)
计量
  • 文章访问数:  303
  • HTML全文浏览量:  63
  • PDF下载量:  51
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-03-29
  • 刊出日期:  2022-08-05

面向小样本高光谱影像分类的轻量化关系网络

doi: 10.13203/j.whugis20210157
    基金项目:

    国家自然科学基 41801388

    作者简介:

    孙一帆,硕士,研究方向为遥感影像处理与分析。sincere_sunyf@163.com

  • 中图分类号: P237

摘要: 近年来,基于深度学习的高光谱影像分类取得重要进展,针对高光谱影像分类训练样本稀缺的情况,提出一种结合注意力机制的轻量化关系网络(lightweight attention depth-wise relation network, LWAD-RN), 以解决高光谱影像小样本分类问题。该网络由嵌入层和关联层组成,在嵌入层采用结合注意力机制的轻量化卷积神经网络提取像元特征,同时引入稠密网络结构;在关联层计算关联值进行分类,并采用基于任务的模式训练网络。利用3组公开的高光谱影像数据进行对比实验,结果表明,LWAD-RN能够有效提升小样本条件下(每类5个训练样本)的分类精度,同时提高了模型训练和分类效率。

English Abstract

孙一帆, 余旭初, 谭熊, 刘冰, 高奎亮. 面向小样本高光谱影像分类的轻量化关系网络[J]. 武汉大学学报 ● 信息科学版, 2022, 47(8): 1336-1348. doi: 10.13203/j.whugis20210157
引用本文: 孙一帆, 余旭初, 谭熊, 刘冰, 高奎亮. 面向小样本高光谱影像分类的轻量化关系网络[J]. 武汉大学学报 ● 信息科学版, 2022, 47(8): 1336-1348. doi: 10.13203/j.whugis20210157
SUN Yifan, YU Xuchu, TAN Xiong, LIU Bing, GAO Kuiliang. Lightweight Relational Network for Small Sample Hyperspectral Image Classification[J]. Geomatics and Information Science of Wuhan University, 2022, 47(8): 1336-1348. doi: 10.13203/j.whugis20210157
Citation: SUN Yifan, YU Xuchu, TAN Xiong, LIU Bing, GAO Kuiliang. Lightweight Relational Network for Small Sample Hyperspectral Image Classification[J]. Geomatics and Information Science of Wuhan University, 2022, 47(8): 1336-1348. doi: 10.13203/j.whugis20210157
  • 高光谱遥感影像具有数据高维、波段间高度相关、光谱混合等特点,其分类面临巨大挑战。针对上述问题,已有研究提出了主成分分析(principal component analysis,PCA)[1]、线性判别分析(linear discriminant analysis,LDA)[2]等光谱降维技术,以及拓展形态学剖面(extended morpho-logical profiles,EMP)[3]、局部二值模式(local binary patterns,LBP)等空间特征提取技术。其中,文献[4]采用多层级二值模式(multi-local binary patterns,MLBP)进行空-谱分类,取得了明显优于传统空间特征方法的分类结果。随后,以支持向量机(support vector machine,SVM)[5]和随机森林(random forest,RF)[6]为代表的分类器相继应用于高光谱影像分类中。但传统方法特征设计复杂,并且繁琐的参数设置会导致模型泛化性、鲁棒性较差。

    与传统方法相比,深度学习技术能自动地提取更抽象的特征表达,近几年已广泛应用于高光谱影像分类。堆栈式自编码器[7]是最早用于高光谱影像分类的深度网络模型。随后出现了一维卷积神经网络[8]、深度置信网络[9]和循环神经网络[10],提升了分类表现。卷积神经网络(convolutional neural network,CNN)是深度学习中极具代表性的网络,能够直接处理高维图像数据[11]。以深度卷积神经网络(deep convolutional neural network,DCNN)为代表,相关改进方法主要包括2-DCNN[11]和基于2-DCNN的改进模型如DR-CNN[12]、DC-CNN[13]等,3-DCNN[14]和基于3-DCNN的改进模型如Res-3D-CNN[15]、CSA-MSO3DCNN[16]等。此外,文献[17]利用胶囊网络实现高光谱影像空谱联合分类,提升分类精度。在训练样本充足时(通常指训练集中每类含100个以上的样本),基于深度学习的分类方法能够获得较好的表现。然而,高光谱数据标注费时费力,所以在实际应用中通常面临训练样本不足的问题。针对此问题,目前的研究方向集中于如何简化网络或引进先进的学习方法,例如将深度学习与主动学习[18]、半监督学习[19]、元学习[20]、迁移学习[21]等相结合,其中元学习是解决小样本问题的主流方法[22]。针对小样本问题,陆续有学者提出了数据增强[14]、生成式对抗网络[23]等方法。文献[24]提出了深度少样例方法,通过模拟小样本分类情况来训练深度三维卷积神经网络,取得了优于传统半监督分类方法的分类精度。

    针对小样本条件下分类方法精度不高的问题,本文提出了一种结合注意力机制的轻量化关系网络(lightweight attention depth-wise relation network,LWAD-RN)。首先,引入关系网络作为基础架构,在嵌入层引入轻量化的卷积神经网络,减少参数量和计算量,防止过拟合;其次,引入轻量化的注意力模块,在几乎不对网络训练造成负担的同时,进一步提升网络的特征表达能力;然后,在嵌入层采用稠密网络结构,加强特征图的传递,降低训练难度,防止梯度消失;最后,采用基于任务的训练模式,用很少的样本随机构建大量任务充分训练模型,缓解样本不足带来的不利影响。

    • 注意力机制已广泛应用于计算机视觉领域[25],其通过抑制冗余信息来提取有效信息,在提高神经网络性能方面表现出巨大的潜力,SENet[26]是最早提出的注意力机制。文献[27]提出了结合光谱注意力模块网络;文献[28]提出了结合自注意力机制的空-谱网络;文献[29]提出了CSMS-SSRN,利用三维注意力模块从光谱维和空间维提升特征表达力。

      针对小样本条件下的高光谱影像分类,本文提出在网络中嵌入轻量化的空-谱注意力模块,如图 1所示。首先在几乎不增加计算负担的前提下,通过在光谱维重新校准光谱带,突出有效光谱信息、抑制冗余信息;然后通过在空间维聚焦同质区域,抑制干扰像素的影响。

      图  1  注意力模块示意图

      Figure 1.  Schematic Diagram of Attention Module

      将数据立方体FRH×W×C作为输入,通过光谱注意力模块得到MC,通过空间注意力模块得到MS,最终得到输出F。输入与输出尺寸保持一致,则有:

      F'=MC(F)FMS(F')F' ]]>

      在光谱注意力部分,通过3DAveragePooling和3DMaxPooling两种池化操作压缩空间维信息,分别得到1×1×(C/r)的特征图,其中r为压缩率,二者相加后与F相乘,得到光谱维加权的特征图F'F'作为空间注意力模块的输入,通过3DAveragePooling和3DMaxPooling池化操作压缩光谱维信息,将得到的H×W×1的特征图相连接,卷积操作后的MSF'相乘后得到注意力输出结果F,通过在光谱维和空间维赋予不同权重来提取有效信息,抑制无效信息。

    • 随着卷积神经网络的性能不断提升,为了解决网络的效率和实用性问题,提出了轻量化网络模型。近年来,比较典型的轻量化模型有Squeeze Net[30]、MobileNets[31]、ShuffleNet[32]、Xception[33]等。模型的轻量化主要依靠DW(depth-wise)操作,为了解决信息流通不畅的问题,MobileNets采用了PW(point-wise)操作;Xception将二者组合,称作深度可分离卷积,相比于同规模的常规卷积操作,能够有效减少参量和降低运算成本。

      假设存在分辨率为5×5的三通道彩色图片,对其进行常规卷积操作的过程如图 2所示,经过3×3卷积核的卷积层(假设输出通道数为4),输出4个特征图。对其进行深度可分离卷积操作的过程如图 3所示。DW操作卷积核数量与输入通道数相同,且通道和卷积核对应,生成3个特征图;PW操作卷积核的尺寸为1×1×3,对应输入通道数,将上一步的特征图在深度方向上进行加权组合,生成新的特征图。

      图  2  常规卷积操作示意图

      Figure 2.  Schematic Diagram of Conventional Convolution

      图  3  深度可分离卷积操作示意图

      Figure 3.  Schematic Diagram of Depth-Wise Separable Convolution

      常规卷积操作中,网络参数量为3×3×3×4=108,运算量为3×3×3×4×5×5=2 700;深度可分离卷积操作中,网络参数量为3×3×3+1×1×3×4=39,运算量为3×3×3×5×5 +1×1×3×4×5×5=975,在参数量和运算量上都仅约为常规卷积操作的1/3,从而有效减少了参数量并降低运算成本。

    • 关系网络是小样本学习代表,由嵌入层和关联层构成。基于关系网络的高光谱影像分类实质上是提取像元特征并判断像元间的关联性,将关联性高的像元划归为同类。由于高光谱影像空-谱信息丰富的特点,以数据立方体作为输入,比较以中心像元为核心的数据立方体之间的关联性。同时,基于任务的训练策略把同一个任务中的样本集划分为支撑集和查询集。通过随机划分样本集组合成大量任务,对关系网络进行充分训练,使模型学会如何获取学习能力。

      C个类别,每个类别中随机抽取1个和2个样本分别作为支撑集和查询集,即为C-way/1-shot/2-query问题,并将支撑集记作S1×C,查询集记作Q2×C。其中Sj表示支撑集中第j类地物样本,j=1, 2CQij表示查询集中第j类第i个地物样本,i=1, 2, j=1, 2C。对于每一个Sj(共有CSj),将SjQij作为嵌入层fφ的输入后分别得到特征向量fφ(Sj)fφ(Qij),再将其相连接得到连接向量Cat(fφ(Sj), fφ(Qij)),连接向量的数量应为2C,输入到关联层gϕ后输出得到2C个关联值ri, j。对于两组查询样本,关联值最高对应的像元即认为类别一致,计算如下:

      ri, j=gϕCat(fφ(Sj), fφ(Qij))Label(Sj)=Label(Q1k), r1, k=max(r1, j)Label(Sj)=Label(Q2k), r2, k=max(r2, j) ]]>

      式中,i=1, 2j=1, 2C

      图  4  面向高光谱影像分类的关系网络

      Figure 4.  Relation Network for Hyperspectral Image Classification

      训练时,利用均方损失函数分析训练过程和模型收敛情况,采用基于反向传播的随机梯度下降法优化模型参数,计算如下:

      φ, ϕarg minφ, ϕi=1Nj=1C(ri, j-1(Label(Sj)==Label(Qij)))2 ]]>

      式中,N表示查询集中每类地物样本的数量。测试时,将测试样本看作查询集,训练后的模型可以在支撑集中找到与每个测试样本关联性最高的样本,由于支撑集中样本类别是已知的,可对测试样本进行标记来完成逐像素分类任务。

    • 网络由嵌入层和关联层组成,如图 5所示。首先,在嵌入层嵌入空-谱注意力模块,增强对特征的提取和表达能力。输入尺寸为S×S×L数据立方体,经过注意力模块后尺寸不变。随后在嵌入层引入轻量化的卷积神经网络模块,利用深度可分类卷积操作分别提取不同像元邻域内的空-谱特征。为了规范地训练网络,每一次卷积操作后都经过批归一化(batch normalization,BN)层[34]和ReLU激活层[35]。第一次PW操作卷积核大小为1×1(T),输出经组合后为S×S×T。接下来的DW操作padding=1,卷积核大小为3×3(T),输出经组合后为S×S×T。第二次PW操作卷积核大小为1×1(L),输出经组合后为S×S×L。由于注意力模块和轻量化的卷积神经网络模块的输出均和输入保持一致,采用稠密网络[36]结构进行输出特征加和,利用连续的skip-connection操作,加强特征的传递,缓解小样本条件下的梯度消失概率,同时更有效地利用了每一层的输出特征。采用三维平均池化(AveragePooling)控制输出尺寸,窗口大小为3×3×3,步长为2×2×2,输出即为像元在嵌入空间的特征向量。连接不同像元的特征作为关联层的输入,采用两个常规二维卷积层处理,卷积核大小分别为1×1(64)、3×3(128),卷积操作后都经过BN层和ReLU激活层,再进行MaxPooling池化操作,窗口大小为2×2,步长为1。最后通过两个全连接层来得到查询像元与不同类别支撑像元的关联值,关联值数目与类别数目相同。

      图  5  嵌入层和关联层结构

      Figure 5.  Architecture of Embedding Layer and Relation Layer

    • 实验在16 GB内存,i7-10750H 2.60 GHz的处理器,NVIDIA GeForce RTX 2070S显卡,64位Windows 10系统上进行,程序基于Pytorch库开发和实现。

    • 从开源高光谱影像数据中选取Pavia University(PU)、Pavia Center(PC)、Salinas(SA)3类数据集作为实验数据集。对于3类数据集,训练数据集均由每类5个样本组成,除训练样本外的其余样本作为测试数据集。训练时,构建C-way/1-shot/4-query任务进行训练;测试时,训练数据集构成支撑集,测试数据集作为查询集。数据详细信息如表 1所示。实验采用总体分类精度(overall accuracy,OA)、平均分类精度(average accuracy,AA)、Kappa系数等3种常用标准作为评价指标。此外,为了对模型性能进行更全面的评估,采用F1来衡量网络的泛化能力。F1分值一般解释为精度P和召回率R的加权平均值,范围在0~1之间,为1时达到最佳,为0时则最差,能用来评价模型类别误判和漏判情况,计算如下:

      F1=2PRP+R ]]>

      表 1  PU、PC、SA数据集

      Table 1.  PU, PC, SA Datasets

      参数 PU PC SA
      像素分辨率 610×340 1 096×492 512×217
      光谱范围/nm 430~860 430~860 400~2 500
      波段数目 103 102 204
      空间分辨率/m 1.3 1.3 3.7
      传感器 ROSIS ROSIS AVIRIS
      类别数量 9 9 16
      标记样本总数 42 776 103 539 54 129
      训练集样本总数 5×9 = 45 5×9 = 45 5×16 = 80
      测试集样本总数 42 731 103 494 54 049
    • 为探究输入立方体的窗口尺寸S对分类结果带来的影响,选取最优的窗口大小,分别采用9×9、11×11、13×13、15×15、17×17、19×19的窗口尺寸构建数据立方体作为输入。经训练后的网络分类精度如表 2所示,最优值加粗表示。由表 2可知,PU、PC、SA数据集分别选择15×15、11×11、17×17的窗口大小时,能够取得最佳分类精度。

      表 2  不同尺寸数据立方体作为输入在PU、PC、SA数据集上的分类精度/%

      Table 2.  Classification Accuracy of Different Cube's Sizes as Input on PU, PC, SA Dataset/%

      数据集 9×9 11×11 13×13 15×15 17×17 19×19
      PU 85.05 86.58 88.10 90.48 82.39 81.89
      PC 97.13 98.14 98.06 97.15 96.85 96.24
      SA 88.73 89.32 90.72 87.38 91.18 89.67
    • 维度T决定轻量化卷积模块的输出维度,通常T=t×Lt为维度系数,L为数据立方体通道数),为了使数据维度保持一致,在3类数据集中均选择前100个波段来构建数据,即L=100。为探究维度T对网络性能的影响并选取最优的维度,采用PU数据集进行训练和测试,选取S=15,令维度系数t=2、3、4、5,分类精度变化如图 6所示。

      图  6  不同维度系数t在PU数据集上的分类精度

      Figure 6.  Classification Accuracy of Different Dimension Coefficient t on PU Dataset

      图 6可知,当t=4时,即T=4L=400,此时网络的表现最好,分类精度达到90.48%。

    • 为验证本文算法有效性,选择SVM、LapSVM[37]、Res-3D-CNN[15]、SS-CNN[19]、DCGAN+SEMI[38]和RN-FSC[20]作为对比算法。其中,Res-3D-CNN为监督学习算法;SS-CNN、DCGAN+SEMI为半监督学习算法;SVM的核函数为径向基核函数;Res-3D-CNN网络结构设置参考文献[19];SS-CNN、DCGAN+SEMI参数与本文算法保持一致。所有算法均选取每类5个训练样本作为训练集,剩余样本作为测试集。LWAD-RN参数为§2.2中最优值,选取初始学习率为0.000 5并动态衰减。不同算法在PU、PC、SA数据集上的分类结果分别如表 3~5所示,最优值加粗表示。

      表 3  不同算法在PU数据集上的分类结果

      Table 3.  Classification Results of Different Algorithms on PU Dataset

      类别 SVM/% LapSVM/% Res-3D-CNN/% SS-CNN/% DCGAN+SEMI/% RN-FSC/% LWAD-RN/%
      1 56.36 98.24 71.67 89.89 92.18 87.28 90.56
      2 58.29 81.51 88.96 84.42 90.32 84.33 85.89
      3 71.56 30.46 23.30 59.91 41.80 90.42 83.28
      4 91.37 63.13 88.86 57.86 86.39 78.09 98.40
      5 98.49 91.25 89.39 97.13 83.30 99.56 99.63
      6 32.55 37.51 37.88 53.03 43.63 63.25 98.65
      7 95.26 37.45 38.62 36.12 44.54 52.09 99.09
      8 72.83 60.56 42.59 72.75 62.11 84.81 90.98
      9 99.54 99.86 63.13 48.69 66.33 95.94 99.89
      OA/% 62.38 67.23 65.44 71.73 73.52 81.94 90.48
      AA/% 74.66 76.86 60.49 66.64 67.84 81.75 94.04
      Kappa/% 53.21 58.82 55.63 63.37 66.07 75.84 87.73
      F1 0.632 6 0.685 6 0.659 1 0.724 3 0.736 8 0.824 9 0.914 5

      表 4  不同算法在PC数据集上的分类结果

      Table 4.  Classification Results of Different Algorithms on PC Dataset

      类别 SVM/% LapSVM/% Res-3D-CNN/% SS-CNN/% DCGAN+SEMI/% RN-FSC/% LWAD-RN/%
      1 99.95 99.99 99.99 99.17 98.13 100.00 100.00
      2 94.68 94.75 74.17 93.34 98.15 99.53 93.30
      3 40.86 60.84 80.24 75.17 65.81 67.60 81.17
      4 56.47 14.57 27.11 68.85 55.64 72.43 95.93
      5 19.51 65.47 23.08 38.25 53.42 96.91 96.63
      6 63.66 61.85 67.69 31.42 84.21 85.86 99.49
      7 78.21 92.83 77.38 75.82 99.37 85.55 92.37
      8 88.66 94.55 98.88 99.57 99.02 99.94 98.65
      9 99.76 99.86 87.61 95.60 77.46 91.87 100.00
      OA/% 83.11 86.43 80.03 89.27 91.85 96.36 98.14
      AA/% 71.31 76.08 70.69 80.80 81.24 88.86 95.28
      Kappa/% 76.62 81.22 73.16 88.30 91.02 95.98 96.79
      F1 0.8342 0.875 2 0.806 1 0.805 3 0.926 7 0.968 8 0.982 6

      表 5  不同算法在SA数据集上的分类结果

      Table 5.  Classification Results of Different Algorithms on SA Dataset

      类别 SVM/% LapSVM/% Res-3D-CNN/% SS-CNN/% DCGAN+SEMI/% RN-FSC/% LWAD-RN/%
      1 94.53 78.54 39.47 93.02 56.94 99.26 99.56
      2 92.23 98.79 74.02 92.51 71.53 100.00 94.95
      3 66.24 82.83 49.33 84.31 87.44 97.87 89.02
      4 99.78 97.23 88.71 86.43 76.45 99.50 100.00
      5 98.24 88.04 77.50 90.91 94.95 97.81 98.81
      6 98.56 100.00 97.52 99.55 99.47 99.35 97.34
      7 90.61 89.24 61.53 97.54 89.63 100.00 99.02
      8 89.25 63.45 68.93 73.52 70.93 66.24 86.49
      9 95.42 77.53 92.83 93.81 92.89 97.34 87.90
      10 77.84 59.42 69.33 77.21 63.58 93.66 86.69
      11 96.23 39.45 59.07 42.37 83.81 73.96 98.78
      12 99.62 92.84 70.59 95.85 97.33 99.84 96.89
      13 99.21 47.12 75.38 99.23 97.53 100.00 98.36
      14 89.22 92.24 89.12 92.98 87.09 96.39 96.73
      15 22.51 49.81 47.62 50.37 74.78 68.85 87.27
      16 92.12 91.12 88.90 80.54 77.17 99.89 85.06
      OA/% 82.86 77.12 67.60 79.23 80.11 86.99 91.48
      AA/% 87.40 81.23 71.87 84.38 82.60 93.12 93.93
      Kappa/% 79.56 74.21 64.28 77.04 77.86 85.44 90.54
      F1 0.829 3 0.779 6 0.682 1 0.801 9 0.810 2 0.872 4 0.916 5

      表 3~5可知,在小样本条件下,深度网络表现大大下降,Res-3D-CNN并没有比传统算法SVM表现出更好的性能,在PU数据集上OA略高于SVM,但在PC、SA数据集上OA甚至低于SVM,这也说明了经典的基于深度学习的监督学习模型在面临小样本问题时的性能骤降问题。在PU、PC数据集上,LapSVM获得了比SVM更好的表现(OA约提升4.09%),并且SS-CNN与DCGAN+SEMI均有效提升了分类精度,其中DCGAN+SEMI在3类数据集上都有着更好的表现,这说明基于半监督学习的算法通过利用未标记样本能够提高小样本条件下的分类精度,从而获得更好的表现,而SVM在SA数据集上有着更好的表现,这可能与数据的可分性相关。基于元学习的少样例关系网络RN-FSC,在每类5个样本条件下取得更好的分类效果,RN-FSC相比于DCGAN+SEMI,在3类数据集上OA平均提升6.61%,这说明关系网络更适用于小样本问题,也说明针对于小样本问题所设计的算法在解决这类问题时的有效性。LWAD-RN在3组数据集上均取得最好的分类效果,在PU数据集上取得了90.48%的OA,在PC数据集上取得了98.14%的OA,在SA数据集上也取得了91.48%的OA,相比于表现次优的RN-FSC分别提升约8.54%、1.78%、4.99%,在AA、Kappa上同样有着相应的提升。除总体分类结果较好外,LWAD-RN对于单类地物的分类也有较好的表现,以PU数据集为例,在9类地物中有6类都取得了该类最高分类精度,并且在其他方法表现较差的类别(如类6)上,LWAD-RN也有着稳健的表现。在F1分值上,类指标上LWAD-RN分别达到0.914 5、0.982 6、0.916 5,均达到最高,F1上的稳健表现说明了模型具备良好的泛化性。综合上述分析,发现LWAD-RN在小样本条件下提升分类表现的有效性。LWAD-RN的性能表现得益于针对小样本问题的关系网络架构,而轻量化的卷积神经网络结构使得网络在小样本条件下能够更好地训练,注意力模块增强了网络特征表达能力,稠密网络结构加强了特征的传递和复用。

    • 为分析各模块对网络性能带来的影响,同时验证本文算法的有效性,进行消融实验,选择4种网络模式,其中attn为注意力模块,dense为稠密网络结构,lw为轻量化卷积结构。网络+attn+dense+lw为本文网络LWAD-RN,相比LWAD-RN,网络+attn+lw未采用稠密网络结构,网络+lw未嵌入注意力模块,网络+conv表示将轻量化卷积结构置换为同规模的常规卷积结构。4种网络形式在3类数据集上的表现如图 7所示。由图 7可知,在3类数据集上,4种网络性能都依次提升。相比于网络+conv,网络+lw的性能有大幅提升,这说明轻量化卷积结构在面对小样本问题时的有效性,并且从性能提升的程度看(OA平均提升8.59%),轻量化卷积结构的引入是LWAD-RN性能提升的主要原因。

      图  7  不同网络的性能变化

      Figure 7.  Variation in Performance of Different Network

      从光谱和空间两部分更具体地分析注意力模块对特征的增强效应,选取输入特征图中心像元,分别对其通过光谱注意力机制前后的光谱权值曲线(100个波段)进行绘制,如图 8所示。由图 8可以看出,经注意力标定后,有效波段显著增强,例如波段7、19、29等,而无效波段则受到了抑制,例如波段9、21、49等。

      图  8  基于光谱注意力的光谱重标定示意图

      Figure 8.  Spectral Recalibration Based on Spectral Attention Module

      同样地,对尺寸为15×15的特征图进行空间权值热力图的绘制,结果如图 9所示。由图 9可以看到,空间权值的分布从原来的相对无序的状态转变为聚焦于图右上角局部区域的状态,在这个过程中,关联性较强区域的空间权值得到增强(平均权值由约0.08提高至约0.14),而其他区域的权值则受到抑制,从而增强了特征的表达。网络+attn+lw的性能提升说明了注意力模块提升网络特征表达能力的有效性。相比于网络+attn+lw,网络+attn+dense+lw(LWAD-RN)的性能提升说明了引入稠密网络的有效性,稠密网络能够加强特征的传递,通过多步残差降低网络训练难度,很好地适应了小样本任务。

      图  9  基于空间注意力的空间区域聚焦示意图

      Figure 9.  Spatial Region Focus Based on Spatial Attention Module

      不同网络在3类数据集上的分类图如图 10~12所示。由图 10~12可知,分类图效果和分类精度表现一致,网络+conv分类图存在大量噪声,效果较差,网络+lw和网络+attn+lw分类图对噪声有明显改善。相比之下,网络+attn+dense+lw的分类图噪声最少,并且最接近地面真实分类图,分类图的效果较好。

      图  10  不同网络在PU数据集上的分类图

      Figure 10.  Classification Maps of Different Networks on PU Dataset

      图  11  不同网络在PC数据集上的分类图

      Figure 11.  Classification Maps of Different Networks on PC Dataset

      图  12  不同网络在SA数据集上的分类图

      Figure 12.  Classification Maps of Different Networks on SA Dataset

    • 为分析各个模块带来的计算影响和本文方法的计算性能,统计不同网络的待训练参数量以及在3类数据集上的训练时间和测试时间,结果如表 6所示。相比于同规模常规卷积结构,轻量化结构带来更少的待训练参数(参数量减少约27.42%),所以在训练和测试中均有效地缩短了时长(在3类数据集上,训练时间平均缩短约16.41%,测试时间平均缩短约8.5%);注意力模块的引入在小幅增加计算负担(参数量增加约11.91%)的同时就能提升网络的特征表达能力;稠密网络结构的引入并不改变参数量,测试时间有所增加(平均增加约1.94 s),但训练时间(平均缩短2.78 s),这说明网络的训练变得更容易,同时,层次化特征的复用使网络性能得到提升。

      表 6  不同网络的训练时间和测试时间比较

      Table 6.  Comparison of Training Time and Testing Time of Different Networks

      不同网络 待训练参数量 PU数据集 PC数据集 SA数据集
      训练时间/s 测试时间/s 训练时间/s 测试时间/s 训练时间/s 测试时间/s
      网络+conv 117 664 94.92 49.95 95.50 113.62 398.03 115.18
      网络+lw 85 400 83.47 46.52 81.60 103.73 307.97 103.73
      网络+attn+lw 95 569 89.61 47.14 90.16 107.37 312.38 109.88
      网络+attn+dense+lw 95 569 87.92 50.76 86.03 108.51 309.86 110.93
    • LWAD-RN在每类5个训练样本条件下能获得理想的分类精度。然而,在实验过程中由于训练样本极少,样本质量会对模型表现产生重要影响,这也会导致模型的不稳定。为详细分析,在PU数据集上随机选取具有对比性的两组训练样本集(每类5个,共9类)对模型分别进行训练并测试,每组重复10次取平均值作为实验结果,如表 7所示。由表 7可知,模型在训练样本集1上表现出色,OA达到了91.78%,相比训练样本集2上的结果,提高了11.09%,说明训练样本集1的质量更高。

      表 7  LWAD-RN模型在PU两组训练集上的性能表现

      Table 7.  Performance of the LWAD-RN Model on Two Datasets

      评价指标 训练样本集1 训练样本集2
      OA/% 91.78 80.69
      AA/% 93.23 90.33
      Kappa/% 89.25 75.81
      F1 0.919 5 0.820 5

      为分析样本情况,采用t-SNE降维可视化技术,将高维的样本集映射到二维平面上进行可视化,结果如图 13所示。由图 13可知,虽然两组训练集在初始时均没有显著的可分性,但经特征提取后的训练样本集1显示出了良好的可分性,不同类别的样本点很好地聚集在一起,仅有一个类别的一个样本点远离了聚类中心。而训练样本集2即使在特征提取后样本点可分性仍然较差,多个类别样本点无规则散布,这给模型的训练带来困难。

      图  13  两组训练集t-SNE可视化结果

      Figure 13.  t-SNE Visualization Results of Two Datasets

      为了进一步分析训练集对模型训练过程带来的影响,绘制模型在两组训练集上训练的损失函数曲线,如图 14所示。由图 14可知,两次训练的训练精度最终都达到100%,但是在训练集2上的训练损失函数在200次迭代后明显降低,并持续低于训练集1对应的损失函数。结合模型的测试精度,发现模型在训练集2条件下过拟合,而在训练集1条件下对测试集拟合效果较好,具备理想的性能。为选取高质量的训练样本,本文迭代地从所有标记样本中随机选取训练集对模型进行训练和测试,从而得到质量最优的训练集来保证模型性能,防止过拟合。

      图  14  网络在两组训练集上训练时的损失函数曲线

      Figure 14.  Loss Function Curve of the Network Trained on Two Datasets

    • 针对高光谱小样本分类问题,本文提出一种结合注意力机制并采用稠密网络结构的轻量化关系网络LWAD-RN。利用三组开源高光谱数据集进行实验,实验结果表明,LWAD-RN能在小样本条件下获得理想的分类精度,轻量化的网络结构能够使得模型训练和分类效率得到提升。但在小样本条件下,训练样本的质量会对模型性能产生重要影响,后续应研究如何更精准高效地选取高质量的训练样本,保证模型的稳定性,更好地满足实际应用需要。

参考文献 (38)

目录

    /

    返回文章
    返回