Message Board

Respected readers, authors and reviewers, you can add comments to this page on any questions about the contribution, review,        editing and publication of this journal. We will give you an answer as soon as possible. Thank you for your support!

Name
E-mail
Phone
Title
Content
Verification Code
Volume 47 Issue 8
Aug.  2022
Turn off MathJax
Article Contents

SUN Yifan, YU Xuchu, TAN Xiong, LIU Bing, GAO Kuiliang. Lightweight Relational Network for Small Sample Hyperspectral Image Classification[J]. Geomatics and Information Science of Wuhan University, 2022, 47(8): 1336-1348. doi: 10.13203/j.whugis20210157
Citation: SUN Yifan, YU Xuchu, TAN Xiong, LIU Bing, GAO Kuiliang. Lightweight Relational Network for Small Sample Hyperspectral Image Classification[J]. Geomatics and Information Science of Wuhan University, 2022, 47(8): 1336-1348. doi: 10.13203/j.whugis20210157

Lightweight Relational Network for Small Sample Hyperspectral Image Classification

doi: 10.13203/j.whugis20210157
Funds:

The National Natural Science Foundation of China 41801388

More Information
  • Author Bio:

    SUN Yifan, master, specializes in remote sensing image processing and analysis. E-mail: sincere_sunyf@163.com

  • Received Date: 2021-03-29
  • Publish Date: 2022-08-05
  •   Objectives  In recent years, hyperspectral images classification based on deep learning has made important progress. In view of the scarcity of training samples for hyperspectral image classification, this paper proposes a lightweight attention depth-wise relation network (LWAD-RN) to solve the problem of small sample hyperspectral image classification.  Methods  The network consists of an embedding layer and a relation layer. In the embedding layer, a lightweight convolutional neural network combining attention mechanism is used to extract pixel features, and a dense network structure is introduced. The relation value is calculated in the relation layer for classification, and the task-based mode is used to train the network. Three groups of public hyperspectral image datasets are used to implement experiments.  Results and Conclusions  The results show that LWAD-RN can effectively improve the classification accuracy under the condition of small samples (5 training samples per category), and the efficiency of model training and classification is improved.The proposed LWAD-RN can obtain ideal classification accuracy under the condition of small samples, and the lightweight network structure can improve the model training and classification efficiency. However, under the condition of small samples, the quality of training samples will have an important impact on the performance of the model. Therefore, follow-up studies should be conducted on how to select high-quality training samples more accurately and efficiently to ensure the stability of the model and better meet the needs of practical application.
  • [1] Agarwal A, El-Ghazawi T, El-Askary H, et al. Efficient Hierarchical-PCA Dimension Reduction for Hyperspectral Imagery[C]// IEEE International Symposium on Signal Processing and Information Technology, Giza, Egypt, 2007
    [2] Li C H, Chu H S, Kuo B C, et al. Hyperspectral Image Classification Using Spectral and Spatial Information Based Linear Discriminant Analysis[C]//IEEE International Geoscience and Remote Sensing Symposium, Vancouver, BC, Canada, 2011
    [3] Benediktsson J A, Palmason J A, Sveinsson J R. Classification of Hyperspectral Data from Urban Areas Based on Extended Morphological Profiles[J]. IEEE Transactions on Geoscience and Remote Sensing, 2005, 43(3): 480-491 doi:  10.1109/TGRS.2004.842478
    [4] 职露, 余旭初, 邹滨, 等. 多层级二值模式的高光谱影像空-谱分类[J]. 武汉大学学报·信息科学版, 2019, 44(11): 1659-1666 doi:  10.13203/j.whugis20180004

    Zhi Lu, Yu Xuchu, Zou Bin, et al. A Multi-layer Binary Pattern Based Method for Hyperspectral Imagery Classification Using Combined Spatial-Spectral Characteristics[J]. Geomatics and Information Science of Wuhan University, 2019, 44(11): 1659-1666 doi:  10.13203/j.whugis20180004
    [5] Camps-Valls G, Bruzzone L. Kernel-Based Methods for Hyperspectral Image Classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2005, 43(6): 1351-1362 doi:  10.1109/TGRS.2005.846154
    [6] Ren Y M, Zhang Y N, Wei W, et al. A Spectral-Spatial Hyperspectral Data Classification Approach Using Random Forest with Label Constraints[C]//IEEE Workshop on Electronics, Computer andApplications, Ottawa, ON, 2014
    [7] Chen Y S, Lin Z H, Zhao X, et al. Deep Learning-Based Classification of Hyperspectral Data[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2014, 7(6): 2094-2107 doi:  10.1109/JSTARS.2014.2329330
    [8] Hu W, Huang Y Y, Wei L, et al. Deep Convolutional Neural Networks for Hyperspectral Image Classification[J]. Journal of Sensors, 2015: 258619
    [9] Chen Y S, Zhao X, Jia X P. Spectral–Spatial Classification of Hyperspectral Data Based on Deep Belief Network[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2015, 8(6): 2381-2392 doi:  10.1109/JSTARS.2015.2388577
    [10] Mou Lichao, Ghamisi P, Zhu Xiaoxiang. Deep Recurrent Neural Networks for Hyperspectral Image Classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(7): 3639-3655 doi:  10.1109/TGRS.2016.2636241
    [11] Yue J, Zhao W Z, Mao S J, et al. Spectral-Spatial Classification of Hyperspectral Images Using Deep Convolutional Neural Networks[J]. Remote Sensing Letters, 2015, 6(6): 468-477 doi:  10.1080/2150704X.2015.1047045
    [12] Zhang M M, Li W, Du Q. Diverse Region-Based CNN for Hyperspectral Image Classification[J]. IEEE Transactions on Image Processing, 2018, 27: 2623-2634 doi:  10.1109/TIP.2018.2809606
    [13] Zhang H K, Li Y, Zhang Y Z, et al. Spectral-Spatial Classification of Hyperspectral Imagery Using a Dual-Channel Convolutional Neural Network[J]. Remote Sensing Letters, 2017, 8(5): 438-447 doi:  10.1080/2150704X.2017.1280200
    [14] Chen Y S, Jiang H L, Li C Y, et al. Deep Feature Extraction and Classification of Hyperspectral Images Based on Convolutional Neural Networks[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(10): 6232-6251 doi:  10.1109/TGRS.2016.2584107
    [15] 刘冰, 余旭初, 张鹏强, 等. 联合空-谱信息的高光谱影像深度三维卷积网络分类[J]. 测绘学报, 2019, 48(1): 53-63 https://www.cnki.com.cn/Article/CJFDTOTAL-CHXB201901008.htm

    Liu Bing, Yu Xuchu, Zhang Pengqiang, et al. Deep 3D Convolutional Network Combined with Spatial-Spectral Features for Hyperspectral Image Classification[J]. Acta Geodaetica et Cartographica Sinica, 2019, 48(1): 53-63 https://www.cnki.com.cn/Article/CJFDTOTAL-CHXB201901008.htm
    [16] Xu Q, Xiao Y, Wang D Y, et al. CSA-MSO3DCNN: Multiscale Octave 3D CNN with Channel and Spatial Attention for Hyperspectral Image Classification[J]. Remote Sensing, 2020, 12(1): 188 doi:  10.3390/rs12010188
    [17] 高奎亮, 余旭初, 张鹏强, 等. 利用胶囊网络实现高光谱影像空谱联合分类[J]. 武汉大学学报·信息科学版, 2022, 47(3): 428-437 doi:  10.13203/j.whugis20200008

    Gao Kuiliang, Yu Xuchu, Zhang Pengqiang, et al. Hyperspectral Image Spatial-Spectral Classification Using Capsule Network Based Method[J]. Geomatics and Information Science of Wuhan University, 2022, 47(3): 428-437 doi:  10.13203/j.whugis20200008
    [18] Samat A, Li J, Liu S C, et al. Improved Hyperspectral Image Classification by Active Learning Using Pre-Designed Mixed Pixels[J]. Pattern Recognition, 2016, 51: 43-58 doi:  10.1016/j.patcog.2015.08.019
    [19] Liu B, Yu X C, Zhang P Q, et al. A Semi-Supervised Convolutional Neural Network for Hyperspectral Image Classification[J]. Remote Sensing Letters, 2017, 8(9): 839-848 doi:  10.1080/2150704X.2017.1331053
    [20] Gao K L, Liu B, Yu X C, et al. Deep Relation Network for Hyperspectral Image Few-Shot Classification[J]. Remote Sensing, 2020, 12(6): 923 doi:  10.3390/rs12060923
    [21] Jiao L C, Liang M M, Chen H, et al. Deep Fully Convolutional Network-Based Spatial Distribution Prediction for Hyperspectral Image Classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(10): 5585-5599 doi:  10.1109/TGRS.2017.2710079
    [22] Li Z, Zhou F, Chen F, et al. Meta-SGD: Learning to Learn Quickly for Few Shot Learning[J]. arXiv, 2017, DOI: 1707.09835
    [23] Xu S H, Mu X D, Chai D, et al. Remote Sensing Image Scene Classification Based on Generative Adversarial Networks[J]. Remote Sensing Letters, 2018, 9(7): 617-626 doi:  10.1080/2150704X.2018.1453173
    [24] 刘冰, 左溪冰, 谭熊, 等. 高光谱影像分类的深度少样例学习方法[J]. 测绘学报, 2020, 49(10): 1331-1342 doi:  10.11947/j.AGCS.2020.20190486

    Liu Bing, Zuo Xibing, Tan Xiong, et al. A Deep Few-Shot Learning Algorithm for Hyperspectral Image Classification[J]. Acta Geodaetica et Cartographica Sinica, 2020, 49(10): 1331-1342 doi:  10.11947/j.AGCS.2020.20190486
    [25] Wang Q, Liu S T, Chanussot J, et al. Scene Classification with Recurrent Attention of VHR Remote Sensing Images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(2): 1155-1167 doi:  10.1109/TGRS.2018.2864987
    [26] Hu J, Shen L, Albanie S, et al. Squeeze-and-Excitation Networks[J]. arXiv, 2017, DOI: 1709.01507
    [27] Mou L C, Zhu X X. Learning to Pay Attention on Spectral Domain: A Spectral Attention Module-Based Convolutional Network for HyperspectralImage Classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(1): 110-122 doi:  10.1109/TGRS.2019.2933609
    [28] Sun H, Zheng X T, Lu X Q, et al. Spectral–Spatial Attention Network for Hyperspectral Image Classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(5): 3232-3245 doi:  10.1109/TGRS.2019.2951160
    [29] Lu Z Y, Xu B, Sun L, et al. 3-D Channel and Spatial Attention Based Multiscale Spatial-Spectral Residual Network for Hyperspectral Image Classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13: 4311-4324 doi:  10.1109/JSTARS.2020.3011992
    [30] Iandola F N, Han S, Moskewicz M W, et al. SqueezeNet: AlexNet-Level Accuracy with 50x fewer Parameters and < 0.5 MB Model Size[J]. arXiv, 2016, DOI: 1602.07360
    [31] Howard G, Zhu, Chen B, et al. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Application[J]. CoRR, 2017, DOI: 1704.04861
    [32] Zhang Xiangyu, Zhou Xinyu, Lin Mengxiao, et al. ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices[J]. CoRR, 2017, DOI: 1707.01083
    [33] Chollet F. Xception: Deep Learning with Depthwise Separable Convolutions[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, USA, 2017
    [34] Ioffe S, Szegedy C. Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift[J]. arXiv, 2015, DOI: 1502.03167
    [35] Nair V, Hinton G E. Rectified Linear Units Improve Restricted Boltzmann Machines Vinod Nair[C]//International Conference on International Conference on Machine Learning. Omnipress, Haifa, Israel, 2010
    [36] Huang G, Liu Z, van der Maaten L, et al. Densely Connected Convolutional Networks[C]// EEE Conference on Computer Vision and Pattern Recognition, Honolulu, HI, USA, 2017
    [37] Wang L G, Hao S Y, Wang Q M, et al. Semi-Supervised Classification for Hyperspectral Imagery Based on Spatial-Spectral Label Propagation[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2014, 97: 123-137 doi:  10.1016/j.isprsjprs.2014.08.016
    [38] Salimans T, Goodfellow I, Zaremba W, et al. Improved Techniques for Training GANs[J]. arXiv 2016, DOI: 1606.03498
  • 加载中
通讯作者: 陈斌, bchen63@163.com
  • 1. 

    沈阳化工大学材料科学与工程学院 沈阳 110142

  1. 本站搜索
  2. 百度学术搜索
  3. 万方数据库搜索
  4. CNKI搜索

Figures(14)  / Tables(7)

Article Metrics

Article views(302) PDF downloads(51) Cited by()

Related
Proportional views

Lightweight Relational Network for Small Sample Hyperspectral Image Classification

doi: 10.13203/j.whugis20210157
Funds:

The National Natural Science Foundation of China 41801388

  • Author Bio:

Abstract:   Objectives  In recent years, hyperspectral images classification based on deep learning has made important progress. In view of the scarcity of training samples for hyperspectral image classification, this paper proposes a lightweight attention depth-wise relation network (LWAD-RN) to solve the problem of small sample hyperspectral image classification.  Methods  The network consists of an embedding layer and a relation layer. In the embedding layer, a lightweight convolutional neural network combining attention mechanism is used to extract pixel features, and a dense network structure is introduced. The relation value is calculated in the relation layer for classification, and the task-based mode is used to train the network. Three groups of public hyperspectral image datasets are used to implement experiments.  Results and Conclusions  The results show that LWAD-RN can effectively improve the classification accuracy under the condition of small samples (5 training samples per category), and the efficiency of model training and classification is improved.The proposed LWAD-RN can obtain ideal classification accuracy under the condition of small samples, and the lightweight network structure can improve the model training and classification efficiency. However, under the condition of small samples, the quality of training samples will have an important impact on the performance of the model. Therefore, follow-up studies should be conducted on how to select high-quality training samples more accurately and efficiently to ensure the stability of the model and better meet the needs of practical application.

SUN Yifan, YU Xuchu, TAN Xiong, LIU Bing, GAO Kuiliang. Lightweight Relational Network for Small Sample Hyperspectral Image Classification[J]. Geomatics and Information Science of Wuhan University, 2022, 47(8): 1336-1348. doi: 10.13203/j.whugis20210157
Citation: SUN Yifan, YU Xuchu, TAN Xiong, LIU Bing, GAO Kuiliang. Lightweight Relational Network for Small Sample Hyperspectral Image Classification[J]. Geomatics and Information Science of Wuhan University, 2022, 47(8): 1336-1348. doi: 10.13203/j.whugis20210157
  • 高光谱遥感影像具有数据高维、波段间高度相关、光谱混合等特点,其分类面临巨大挑战。针对上述问题,已有研究提出了主成分分析(principal component analysis,PCA)[1]、线性判别分析(linear discriminant analysis,LDA)[2]等光谱降维技术,以及拓展形态学剖面(extended morpho-logical profiles,EMP)[3]、局部二值模式(local binary patterns,LBP)等空间特征提取技术。其中,文献[4]采用多层级二值模式(multi-local binary patterns,MLBP)进行空-谱分类,取得了明显优于传统空间特征方法的分类结果。随后,以支持向量机(support vector machine,SVM)[5]和随机森林(random forest,RF)[6]为代表的分类器相继应用于高光谱影像分类中。但传统方法特征设计复杂,并且繁琐的参数设置会导致模型泛化性、鲁棒性较差。

    与传统方法相比,深度学习技术能自动地提取更抽象的特征表达,近几年已广泛应用于高光谱影像分类。堆栈式自编码器[7]是最早用于高光谱影像分类的深度网络模型。随后出现了一维卷积神经网络[8]、深度置信网络[9]和循环神经网络[10],提升了分类表现。卷积神经网络(convolutional neural network,CNN)是深度学习中极具代表性的网络,能够直接处理高维图像数据[11]。以深度卷积神经网络(deep convolutional neural network,DCNN)为代表,相关改进方法主要包括2-DCNN[11]和基于2-DCNN的改进模型如DR-CNN[12]、DC-CNN[13]等,3-DCNN[14]和基于3-DCNN的改进模型如Res-3D-CNN[15]、CSA-MSO3DCNN[16]等。此外,文献[17]利用胶囊网络实现高光谱影像空谱联合分类,提升分类精度。在训练样本充足时(通常指训练集中每类含100个以上的样本),基于深度学习的分类方法能够获得较好的表现。然而,高光谱数据标注费时费力,所以在实际应用中通常面临训练样本不足的问题。针对此问题,目前的研究方向集中于如何简化网络或引进先进的学习方法,例如将深度学习与主动学习[18]、半监督学习[19]、元学习[20]、迁移学习[21]等相结合,其中元学习是解决小样本问题的主流方法[22]。针对小样本问题,陆续有学者提出了数据增强[14]、生成式对抗网络[23]等方法。文献[24]提出了深度少样例方法,通过模拟小样本分类情况来训练深度三维卷积神经网络,取得了优于传统半监督分类方法的分类精度。

    针对小样本条件下分类方法精度不高的问题,本文提出了一种结合注意力机制的轻量化关系网络(lightweight attention depth-wise relation network,LWAD-RN)。首先,引入关系网络作为基础架构,在嵌入层引入轻量化的卷积神经网络,减少参数量和计算量,防止过拟合;其次,引入轻量化的注意力模块,在几乎不对网络训练造成负担的同时,进一步提升网络的特征表达能力;然后,在嵌入层采用稠密网络结构,加强特征图的传递,降低训练难度,防止梯度消失;最后,采用基于任务的训练模式,用很少的样本随机构建大量任务充分训练模型,缓解样本不足带来的不利影响。

  • 注意力机制已广泛应用于计算机视觉领域[25],其通过抑制冗余信息来提取有效信息,在提高神经网络性能方面表现出巨大的潜力,SENet[26]是最早提出的注意力机制。文献[27]提出了结合光谱注意力模块网络;文献[28]提出了结合自注意力机制的空-谱网络;文献[29]提出了CSMS-SSRN,利用三维注意力模块从光谱维和空间维提升特征表达力。

    针对小样本条件下的高光谱影像分类,本文提出在网络中嵌入轻量化的空-谱注意力模块,如图 1所示。首先在几乎不增加计算负担的前提下,通过在光谱维重新校准光谱带,突出有效光谱信息、抑制冗余信息;然后通过在空间维聚焦同质区域,抑制干扰像素的影响。

    Figure 1.  Schematic Diagram of Attention Module

    将数据立方体FRH×W×C作为输入,通过光谱注意力模块得到MC,通过空间注意力模块得到MS,最终得到输出F。输入与输出尺寸保持一致,则有:

    在光谱注意力部分,通过3DAveragePooling和3DMaxPooling两种池化操作压缩空间维信息,分别得到1×1×(C/r)的特征图,其中r为压缩率,二者相加后与F相乘,得到光谱维加权的特征图F'F'作为空间注意力模块的输入,通过3DAveragePooling和3DMaxPooling池化操作压缩光谱维信息,将得到的H×W×1的特征图相连接,卷积操作后的MSF'相乘后得到注意力输出结果F,通过在光谱维和空间维赋予不同权重来提取有效信息,抑制无效信息。

  • 随着卷积神经网络的性能不断提升,为了解决网络的效率和实用性问题,提出了轻量化网络模型。近年来,比较典型的轻量化模型有Squeeze Net[30]、MobileNets[31]、ShuffleNet[32]、Xception[33]等。模型的轻量化主要依靠DW(depth-wise)操作,为了解决信息流通不畅的问题,MobileNets采用了PW(point-wise)操作;Xception将二者组合,称作深度可分离卷积,相比于同规模的常规卷积操作,能够有效减少参量和降低运算成本。

    假设存在分辨率为5×5的三通道彩色图片,对其进行常规卷积操作的过程如图 2所示,经过3×3卷积核的卷积层(假设输出通道数为4),输出4个特征图。对其进行深度可分离卷积操作的过程如图 3所示。DW操作卷积核数量与输入通道数相同,且通道和卷积核对应,生成3个特征图;PW操作卷积核的尺寸为1×1×3,对应输入通道数,将上一步的特征图在深度方向上进行加权组合,生成新的特征图。

    Figure 2.  Schematic Diagram of Conventional Convolution

    Figure 3.  Schematic Diagram of Depth-Wise Separable Convolution

    常规卷积操作中,网络参数量为3×3×3×4=108,运算量为3×3×3×4×5×5=2 700;深度可分离卷积操作中,网络参数量为3×3×3+1×1×3×4=39,运算量为3×3×3×5×5 +1×1×3×4×5×5=975,在参数量和运算量上都仅约为常规卷积操作的1/3,从而有效减少了参数量并降低运算成本。

  • 关系网络是小样本学习代表,由嵌入层和关联层构成。基于关系网络的高光谱影像分类实质上是提取像元特征并判断像元间的关联性,将关联性高的像元划归为同类。由于高光谱影像空-谱信息丰富的特点,以数据立方体作为输入,比较以中心像元为核心的数据立方体之间的关联性。同时,基于任务的训练策略把同一个任务中的样本集划分为支撑集和查询集。通过随机划分样本集组合成大量任务,对关系网络进行充分训练,使模型学会如何获取学习能力。

    C个类别,每个类别中随机抽取1个和2个样本分别作为支撑集和查询集,即为C-way/1-shot/2-query问题,并将支撑集记作S1×C,查询集记作Q2×C。其中Sj表示支撑集中第j类地物样本,j=1, 2CQij表示查询集中第j类第i个地物样本,i=1, 2, j=1, 2C。对于每一个Sj(共有CSj),将SjQij作为嵌入层fφ的输入后分别得到特征向量fφ(Sj)fφ(Qij),再将其相连接得到连接向量Cat(fφ(Sj), fφ(Qij)),连接向量的数量应为2C,输入到关联层gϕ后输出得到2C个关联值ri, j。对于两组查询样本,关联值最高对应的像元即认为类别一致,计算如下:

    式中,i=1, 2j=1, 2C

    Figure 4.  Relation Network for Hyperspectral Image Classification

    训练时,利用均方损失函数分析训练过程和模型收敛情况,采用基于反向传播的随机梯度下降法优化模型参数,计算如下:

    式中,N表示查询集中每类地物样本的数量。测试时,将测试样本看作查询集,训练后的模型可以在支撑集中找到与每个测试样本关联性最高的样本,由于支撑集中样本类别是已知的,可对测试样本进行标记来完成逐像素分类任务。

  • 网络由嵌入层和关联层组成,如图 5所示。首先,在嵌入层嵌入空-谱注意力模块,增强对特征的提取和表达能力。输入尺寸为S×S×L数据立方体,经过注意力模块后尺寸不变。随后在嵌入层引入轻量化的卷积神经网络模块,利用深度可分类卷积操作分别提取不同像元邻域内的空-谱特征。为了规范地训练网络,每一次卷积操作后都经过批归一化(batch normalization,BN)层[34]和ReLU激活层[35]。第一次PW操作卷积核大小为1×1(T),输出经组合后为S×S×T。接下来的DW操作padding=1,卷积核大小为3×3(T),输出经组合后为S×S×T。第二次PW操作卷积核大小为1×1(L),输出经组合后为S×S×L。由于注意力模块和轻量化的卷积神经网络模块的输出均和输入保持一致,采用稠密网络[36]结构进行输出特征加和,利用连续的skip-connection操作,加强特征的传递,缓解小样本条件下的梯度消失概率,同时更有效地利用了每一层的输出特征。采用三维平均池化(AveragePooling)控制输出尺寸,窗口大小为3×3×3,步长为2×2×2,输出即为像元在嵌入空间的特征向量。连接不同像元的特征作为关联层的输入,采用两个常规二维卷积层处理,卷积核大小分别为1×1(64)、3×3(128),卷积操作后都经过BN层和ReLU激活层,再进行MaxPooling池化操作,窗口大小为2×2,步长为1。最后通过两个全连接层来得到查询像元与不同类别支撑像元的关联值,关联值数目与类别数目相同。

    Figure 5.  Architecture of Embedding Layer and Relation Layer

  • 实验在16 GB内存,i7-10750H 2.60 GHz的处理器,NVIDIA GeForce RTX 2070S显卡,64位Windows 10系统上进行,程序基于Pytorch库开发和实现。

  • 从开源高光谱影像数据中选取Pavia University(PU)、Pavia Center(PC)、Salinas(SA)3类数据集作为实验数据集。对于3类数据集,训练数据集均由每类5个样本组成,除训练样本外的其余样本作为测试数据集。训练时,构建C-way/1-shot/4-query任务进行训练;测试时,训练数据集构成支撑集,测试数据集作为查询集。数据详细信息如表 1所示。实验采用总体分类精度(overall accuracy,OA)、平均分类精度(average accuracy,AA)、Kappa系数等3种常用标准作为评价指标。此外,为了对模型性能进行更全面的评估,采用F1来衡量网络的泛化能力。F1分值一般解释为精度P和召回率R的加权平均值,范围在0~1之间,为1时达到最佳,为0时则最差,能用来评价模型类别误判和漏判情况,计算如下:

    参数 PU PC SA
    像素分辨率 610×340 1 096×492 512×217
    光谱范围/nm 430~860 430~860 400~2 500
    波段数目 103 102 204
    空间分辨率/m 1.3 1.3 3.7
    传感器 ROSIS ROSIS AVIRIS
    类别数量 9 9 16
    标记样本总数 42 776 103 539 54 129
    训练集样本总数 5×9 = 45 5×9 = 45 5×16 = 80
    测试集样本总数 42 731 103 494 54 049

    Table 1.  PU, PC, SA Datasets

  • 为探究输入立方体的窗口尺寸S对分类结果带来的影响,选取最优的窗口大小,分别采用9×9、11×11、13×13、15×15、17×17、19×19的窗口尺寸构建数据立方体作为输入。经训练后的网络分类精度如表 2所示,最优值加粗表示。由表 2可知,PU、PC、SA数据集分别选择15×15、11×11、17×17的窗口大小时,能够取得最佳分类精度。

    数据集 9×9 11×11 13×13 15×15 17×17 19×19
    PU 85.05 86.58 88.10 90.48 82.39 81.89
    PC 97.13 98.14 98.06 97.15 96.85 96.24
    SA 88.73 89.32 90.72 87.38 91.18 89.67

    Table 2.  Classification Accuracy of Different Cube's Sizes as Input on PU, PC, SA Dataset/%

  • 维度T决定轻量化卷积模块的输出维度,通常T=t×Lt为维度系数,L为数据立方体通道数),为了使数据维度保持一致,在3类数据集中均选择前100个波段来构建数据,即L=100。为探究维度T对网络性能的影响并选取最优的维度,采用PU数据集进行训练和测试,选取S=15,令维度系数t=2、3、4、5,分类精度变化如图 6所示。

    Figure 6.  Classification Accuracy of Different Dimension Coefficient t on PU Dataset

    图 6可知,当t=4时,即T=4L=400,此时网络的表现最好,分类精度达到90.48%。

  • 为验证本文算法有效性,选择SVM、LapSVM[37]、Res-3D-CNN[15]、SS-CNN[19]、DCGAN+SEMI[38]和RN-FSC[20]作为对比算法。其中,Res-3D-CNN为监督学习算法;SS-CNN、DCGAN+SEMI为半监督学习算法;SVM的核函数为径向基核函数;Res-3D-CNN网络结构设置参考文献[19];SS-CNN、DCGAN+SEMI参数与本文算法保持一致。所有算法均选取每类5个训练样本作为训练集,剩余样本作为测试集。LWAD-RN参数为§2.2中最优值,选取初始学习率为0.000 5并动态衰减。不同算法在PU、PC、SA数据集上的分类结果分别如表 3~5所示,最优值加粗表示。

    类别 SVM/% LapSVM/% Res-3D-CNN/% SS-CNN/% DCGAN+SEMI/% RN-FSC/% LWAD-RN/%
    1 56.36 98.24 71.67 89.89 92.18 87.28 90.56
    2 58.29 81.51 88.96 84.42 90.32 84.33 85.89
    3 71.56 30.46 23.30 59.91 41.80 90.42 83.28
    4 91.37 63.13 88.86 57.86 86.39 78.09 98.40
    5 98.49 91.25 89.39 97.13 83.30 99.56 99.63
    6 32.55 37.51 37.88 53.03 43.63 63.25 98.65
    7 95.26 37.45 38.62 36.12 44.54 52.09 99.09
    8 72.83 60.56 42.59 72.75 62.11 84.81 90.98
    9 99.54 99.86 63.13 48.69 66.33 95.94 99.89
    OA/% 62.38 67.23 65.44 71.73 73.52 81.94 90.48
    AA/% 74.66 76.86 60.49 66.64 67.84 81.75 94.04
    Kappa/% 53.21 58.82 55.63 63.37 66.07 75.84 87.73
    F1 0.632 6 0.685 6 0.659 1 0.724 3 0.736 8 0.824 9 0.914 5

    Table 3.  Classification Results of Different Algorithms on PU Dataset

    类别 SVM/% LapSVM/% Res-3D-CNN/% SS-CNN/% DCGAN+SEMI/% RN-FSC/% LWAD-RN/%
    1 99.95 99.99 99.99 99.17 98.13 100.00 100.00
    2 94.68 94.75 74.17 93.34 98.15 99.53 93.30
    3 40.86 60.84 80.24 75.17 65.81 67.60 81.17
    4 56.47 14.57 27.11 68.85 55.64 72.43 95.93
    5 19.51 65.47 23.08 38.25 53.42 96.91 96.63
    6 63.66 61.85 67.69 31.42 84.21 85.86 99.49
    7 78.21 92.83 77.38 75.82 99.37 85.55 92.37
    8 88.66 94.55 98.88 99.57 99.02 99.94 98.65
    9 99.76 99.86 87.61 95.60 77.46 91.87 100.00
    OA/% 83.11 86.43 80.03 89.27 91.85 96.36 98.14
    AA/% 71.31 76.08 70.69 80.80 81.24 88.86 95.28
    Kappa/% 76.62 81.22 73.16 88.30 91.02 95.98 96.79
    F1 0.8342 0.875 2 0.806 1 0.805 3 0.926 7 0.968 8 0.982 6

    Table 4.  Classification Results of Different Algorithms on PC Dataset

    类别 SVM/% LapSVM/% Res-3D-CNN/% SS-CNN/% DCGAN+SEMI/% RN-FSC/% LWAD-RN/%
    1 94.53 78.54 39.47 93.02 56.94 99.26 99.56
    2 92.23 98.79 74.02 92.51 71.53 100.00 94.95
    3 66.24 82.83 49.33 84.31 87.44 97.87 89.02
    4 99.78 97.23 88.71 86.43 76.45 99.50 100.00
    5 98.24 88.04 77.50 90.91 94.95 97.81 98.81
    6 98.56 100.00 97.52 99.55 99.47 99.35 97.34
    7 90.61 89.24 61.53 97.54 89.63 100.00 99.02
    8 89.25 63.45 68.93 73.52 70.93 66.24 86.49
    9 95.42 77.53 92.83 93.81 92.89 97.34 87.90
    10 77.84 59.42 69.33 77.21 63.58 93.66 86.69
    11 96.23 39.45 59.07 42.37 83.81 73.96 98.78
    12 99.62 92.84 70.59 95.85 97.33 99.84 96.89
    13 99.21 47.12 75.38 99.23 97.53 100.00 98.36
    14 89.22 92.24 89.12 92.98 87.09 96.39 96.73
    15 22.51 49.81 47.62 50.37 74.78 68.85 87.27
    16 92.12 91.12 88.90 80.54 77.17 99.89 85.06
    OA/% 82.86 77.12 67.60 79.23 80.11 86.99 91.48
    AA/% 87.40 81.23 71.87 84.38 82.60 93.12 93.93
    Kappa/% 79.56 74.21 64.28 77.04 77.86 85.44 90.54
    F1 0.829 3 0.779 6 0.682 1 0.801 9 0.810 2 0.872 4 0.916 5

    Table 5.  Classification Results of Different Algorithms on SA Dataset

    表 3~5可知,在小样本条件下,深度网络表现大大下降,Res-3D-CNN并没有比传统算法SVM表现出更好的性能,在PU数据集上OA略高于SVM,但在PC、SA数据集上OA甚至低于SVM,这也说明了经典的基于深度学习的监督学习模型在面临小样本问题时的性能骤降问题。在PU、PC数据集上,LapSVM获得了比SVM更好的表现(OA约提升4.09%),并且SS-CNN与DCGAN+SEMI均有效提升了分类精度,其中DCGAN+SEMI在3类数据集上都有着更好的表现,这说明基于半监督学习的算法通过利用未标记样本能够提高小样本条件下的分类精度,从而获得更好的表现,而SVM在SA数据集上有着更好的表现,这可能与数据的可分性相关。基于元学习的少样例关系网络RN-FSC,在每类5个样本条件下取得更好的分类效果,RN-FSC相比于DCGAN+SEMI,在3类数据集上OA平均提升6.61%,这说明关系网络更适用于小样本问题,也说明针对于小样本问题所设计的算法在解决这类问题时的有效性。LWAD-RN在3组数据集上均取得最好的分类效果,在PU数据集上取得了90.48%的OA,在PC数据集上取得了98.14%的OA,在SA数据集上也取得了91.48%的OA,相比于表现次优的RN-FSC分别提升约8.54%、1.78%、4.99%,在AA、Kappa上同样有着相应的提升。除总体分类结果较好外,LWAD-RN对于单类地物的分类也有较好的表现,以PU数据集为例,在9类地物中有6类都取得了该类最高分类精度,并且在其他方法表现较差的类别(如类6)上,LWAD-RN也有着稳健的表现。在F1分值上,类指标上LWAD-RN分别达到0.914 5、0.982 6、0.916 5,均达到最高,F1上的稳健表现说明了模型具备良好的泛化性。综合上述分析,发现LWAD-RN在小样本条件下提升分类表现的有效性。LWAD-RN的性能表现得益于针对小样本问题的关系网络架构,而轻量化的卷积神经网络结构使得网络在小样本条件下能够更好地训练,注意力模块增强了网络特征表达能力,稠密网络结构加强了特征的传递和复用。

  • 为分析各模块对网络性能带来的影响,同时验证本文算法的有效性,进行消融实验,选择4种网络模式,其中attn为注意力模块,dense为稠密网络结构,lw为轻量化卷积结构。网络+attn+dense+lw为本文网络LWAD-RN,相比LWAD-RN,网络+attn+lw未采用稠密网络结构,网络+lw未嵌入注意力模块,网络+conv表示将轻量化卷积结构置换为同规模的常规卷积结构。4种网络形式在3类数据集上的表现如图 7所示。由图 7可知,在3类数据集上,4种网络性能都依次提升。相比于网络+conv,网络+lw的性能有大幅提升,这说明轻量化卷积结构在面对小样本问题时的有效性,并且从性能提升的程度看(OA平均提升8.59%),轻量化卷积结构的引入是LWAD-RN性能提升的主要原因。

    Figure 7.  Variation in Performance of Different Network

    从光谱和空间两部分更具体地分析注意力模块对特征的增强效应,选取输入特征图中心像元,分别对其通过光谱注意力机制前后的光谱权值曲线(100个波段)进行绘制,如图 8所示。由图 8可以看出,经注意力标定后,有效波段显著增强,例如波段7、19、29等,而无效波段则受到了抑制,例如波段9、21、49等。

    Figure 8.  Spectral Recalibration Based on Spectral Attention Module

    同样地,对尺寸为15×15的特征图进行空间权值热力图的绘制,结果如图 9所示。由图 9可以看到,空间权值的分布从原来的相对无序的状态转变为聚焦于图右上角局部区域的状态,在这个过程中,关联性较强区域的空间权值得到增强(平均权值由约0.08提高至约0.14),而其他区域的权值则受到抑制,从而增强了特征的表达。网络+attn+lw的性能提升说明了注意力模块提升网络特征表达能力的有效性。相比于网络+attn+lw,网络+attn+dense+lw(LWAD-RN)的性能提升说明了引入稠密网络的有效性,稠密网络能够加强特征的传递,通过多步残差降低网络训练难度,很好地适应了小样本任务。

    Figure 9.  Spatial Region Focus Based on Spatial Attention Module

    不同网络在3类数据集上的分类图如图 10~12所示。由图 10~12可知,分类图效果和分类精度表现一致,网络+conv分类图存在大量噪声,效果较差,网络+lw和网络+attn+lw分类图对噪声有明显改善。相比之下,网络+attn+dense+lw的分类图噪声最少,并且最接近地面真实分类图,分类图的效果较好。

    Figure 10.  Classification Maps of Different Networks on PU Dataset

    Figure 11.  Classification Maps of Different Networks on PC Dataset

    Figure 12.  Classification Maps of Different Networks on SA Dataset

  • 为分析各个模块带来的计算影响和本文方法的计算性能,统计不同网络的待训练参数量以及在3类数据集上的训练时间和测试时间,结果如表 6所示。相比于同规模常规卷积结构,轻量化结构带来更少的待训练参数(参数量减少约27.42%),所以在训练和测试中均有效地缩短了时长(在3类数据集上,训练时间平均缩短约16.41%,测试时间平均缩短约8.5%);注意力模块的引入在小幅增加计算负担(参数量增加约11.91%)的同时就能提升网络的特征表达能力;稠密网络结构的引入并不改变参数量,测试时间有所增加(平均增加约1.94 s),但训练时间(平均缩短2.78 s),这说明网络的训练变得更容易,同时,层次化特征的复用使网络性能得到提升。

    不同网络 待训练参数量 PU数据集 PC数据集 SA数据集
    训练时间/s 测试时间/s 训练时间/s 测试时间/s 训练时间/s 测试时间/s
    网络+conv 117 664 94.92 49.95 95.50 113.62 398.03 115.18
    网络+lw 85 400 83.47 46.52 81.60 103.73 307.97 103.73
    网络+attn+lw 95 569 89.61 47.14 90.16 107.37 312.38 109.88
    网络+attn+dense+lw 95 569 87.92 50.76 86.03 108.51 309.86 110.93

    Table 6.  Comparison of Training Time and Testing Time of Different Networks

  • LWAD-RN在每类5个训练样本条件下能获得理想的分类精度。然而,在实验过程中由于训练样本极少,样本质量会对模型表现产生重要影响,这也会导致模型的不稳定。为详细分析,在PU数据集上随机选取具有对比性的两组训练样本集(每类5个,共9类)对模型分别进行训练并测试,每组重复10次取平均值作为实验结果,如表 7所示。由表 7可知,模型在训练样本集1上表现出色,OA达到了91.78%,相比训练样本集2上的结果,提高了11.09%,说明训练样本集1的质量更高。

    评价指标 训练样本集1 训练样本集2
    OA/% 91.78 80.69
    AA/% 93.23 90.33
    Kappa/% 89.25 75.81
    F1 0.919 5 0.820 5

    Table 7.  Performance of the LWAD-RN Model on Two Datasets

    为分析样本情况,采用t-SNE降维可视化技术,将高维的样本集映射到二维平面上进行可视化,结果如图 13所示。由图 13可知,虽然两组训练集在初始时均没有显著的可分性,但经特征提取后的训练样本集1显示出了良好的可分性,不同类别的样本点很好地聚集在一起,仅有一个类别的一个样本点远离了聚类中心。而训练样本集2即使在特征提取后样本点可分性仍然较差,多个类别样本点无规则散布,这给模型的训练带来困难。

    Figure 13.  t-SNE Visualization Results of Two Datasets

    为了进一步分析训练集对模型训练过程带来的影响,绘制模型在两组训练集上训练的损失函数曲线,如图 14所示。由图 14可知,两次训练的训练精度最终都达到100%,但是在训练集2上的训练损失函数在200次迭代后明显降低,并持续低于训练集1对应的损失函数。结合模型的测试精度,发现模型在训练集2条件下过拟合,而在训练集1条件下对测试集拟合效果较好,具备理想的性能。为选取高质量的训练样本,本文迭代地从所有标记样本中随机选取训练集对模型进行训练和测试,从而得到质量最优的训练集来保证模型性能,防止过拟合。

    Figure 14.  Loss Function Curve of the Network Trained on Two Datasets

  • 针对高光谱小样本分类问题,本文提出一种结合注意力机制并采用稠密网络结构的轻量化关系网络LWAD-RN。利用三组开源高光谱数据集进行实验,实验结果表明,LWAD-RN能在小样本条件下获得理想的分类精度,轻量化的网络结构能够使得模型训练和分类效率得到提升。但在小样本条件下,训练样本的质量会对模型性能产生重要影响,后续应研究如何更精准高效地选取高质量的训练样本,保证模型的稳定性,更好地满足实际应用需要。

Reference (38)

Catalog

    /

    DownLoad:  Full-Size Img  PowerPoint
    Return
    Return