多结构卷积神经网络特征级联的高分影像土地利用分类

文章信息

门计林, 刘越岩, 张斌, 周繁

MEN Jilin, LIU Yueyan, ZHANG Bin, ZHOU Fan

Land Use Classification Based on Multi-structure Convolution Neural Network Features Cascading

武汉大学学报·信息科学版, 2019, 44(12): 1841-1848

Geomatics and Information Science of Wuhan University, 2019, 44(12): 1841-1848

http://dx.doi.org/10.13203/j.whugis20180137

文章历史

收稿日期: 2018-08-10

Abstract

PDF

Figures

Tables

门计林, 刘越岩, 张斌, 周繁. 多结构卷积神经网络特征级联的高分影像土地利用分类[J]. 武汉大学学报·信息科学版, 2019, 44(12): 1841-1848.

MEN Jilin, LIU Yueyan, ZHANG Bin, ZHOU Fan. Land Use Classification Based on Multi-structure Convolution Neural Network Features Cascading[J]. Geomatics and Information Science of Wuhan University, 2019, 44(12): 1841-1848.

多结构卷积神经网络特征级联的高分影像土地利用分类

门计林¹ , 刘越岩¹ , 张斌¹ , 周繁²

1. 中国地质大学公共管理学院, 湖北武汉, 430074;
2. 武汉市不动产登记中心, 湖北武汉, 430015

收稿日期：2018-08-10

项目资助：国家自然科学基金(41601480);湖北省自然科学基金(2014175083);中国地质大学(武汉)中央高校基本科研业务费专项资金

第一作者：门计林, 硕士生, 主要从事高分辨率遥感影像土地利用分类。Jilin.men@cug.edu.cn.

通讯作者：刘越岩, 博士, 副教授。yueyanliu@cug.edu.cn.

摘要：高分辨率遥感影像包含丰富的土地利用类型信息，针对单一卷积神经网络提取图像特征信息不足的问题，提出了一种多结构卷积神经网络（convolutional neural network，CNN）特征级联的分类方法。首先，选择CaffeNet（convolutional architecture for fast feature embedding）、VGG-S（visual geometry group-slow）、VGG-F（visual geometry group-fast）为实验初始模型，对网络全连接层进行参数微调，采用随机梯度下降法（stochasticgradient descent，SGD）更新网络的权重；然后以微调后的网络分别作为特征提取器对图像提取特征，级联上述3种网络的第二个全连接层输出特征作为图像表达；最后，以多类最优边界分配机（multi-class optimal margindistribution machine，mcODM）获得最终分类结果。实验采用UC Merced land-use数据集进行分类效果检验，结果表明，多结构卷积神经网络级联的方法能够达到97.55%的总体分类精度，相较于CaffeNet、VGG-S和VGG-F等，分类精度分别提升了5.71%、2.72%和5.1%。因此多结构卷积神经网络特征级联的方法能够有效提取目标特征信息，提升土地利用分类精度。

关键词：遥感高分辨率影像土地利用分类卷积神经网络

Land Use Classification Based on Multi-structure Convolution Neural Network Features Cascading

MEN Jilin¹ , LIU Yueyan¹ , ZHANG Bin¹ , ZHOU Fan²

1. School of Public Administration, China University of Geosciences, Wuhan 430074, China;
2. Wuhan Real Estate Registration Center, Wuhan 430015, China

Foundation support: The National Natural Science Foundation of China, No. 41601480; the National Science Foundation of Hubei Province, No. 2014175083; the Fundamental Research Funds for the Central Universites, China University of Geosciences(Wuhan)

First author: MEN Jilin, postgraduate, specializes in land use classification of high resolution remote sensing images. E-mail:Jilin.men@cug.edu.cn.

Corresponding author: LIU Yueyan, PhD, associate professor. E-mail: yueyanliu@cug.edu.cn.

Abstract: High resolution remote sensing images contain abundant information of land use types, in order to solve the problem of extracting feature information from single convolution neural network, a classification model of cascading multi-structure convolution neural networks is proposed. Firstly, We choose CaffeNet(convolutional architecture for fast feature embedding), VGG-S(visual geometry group-slow), VGG-F(visual geometry group-fast)as experimental models, and fine-tune parameter of two full-connected network layers using UC Merced land-use data set. We update the network weight by the stochastic gradient descent(SGD), and then the networks fine-tuned are used as feature extractors, the outputs of the second full-connected layer of the model above as the expression of the images. Finally, by cascading the features of the three networks, the final classification results are obtained using multi-class optimal margin distribution machine (mcODM). The experimental dataset is based on the UC Merced land-use data set. The experimental results show that the method of cascading multi-structure convolution neural network can reach 97.55%, and the accuracy of land use classification is improved by 5.71%, 2.72% and 5.1% respectively compared with pre-trained CNNs.

Key words: remote sensing high resolution image land use classification convolutional neural network

土地利用类型具有复杂的自然属性和社会属性，使得满足用户对土地利用有效分类的需求成为土地资源管理领域的热点和难点问题^[1]。随着遥感技术的进步，遥感图像能够提供更加丰富的属性信息，为上述问题的解决提供了可能^[2-3]。土地利用分类的核心在于用有效的特征对土地利用类型信息进行有效表达^[1]，依据特征提取的维度（抽象程度），可将特征大致分为3类，即低层特征、中层特征和高层特征（也称深度特征）^[4]。低层特征以图像浅层视觉属性(纹理、结构、空间信息等)为基础，如尺度不变转换特征^[5]（scale invariant feature transform, SIFT）虽然对一般的分类任务能得到不错的分类效果，但是在场景种类多、复杂性高的分类任务中暴露出泛化能力差的局限性。中层特征通过对低层特征编码，提高了模型可学习性和特征表达能力，在分类结果上取得了进步^[6-8]。Grauman等^[9]提出利用密集尺度不变转换特征（dense scale invariant feature transform，DSIFT）进行量化编码（vector quantization，VQ）的方法，相比于低层特征的分类方法，分类效果有明显提升。刘越岩等^[10]提出了多特征软概率级联的分类方法，通过组合多个低层特征，一定程度上弥补了单一特征在图像表达中的不足。Yang等^[6]提出SIFT和视觉词袋模型^[11]（bag of visual words, BOVW）的分类方法，对BOVW进行了改进。上述中层特征的分类方法受限于中层特征的信息传递能力，仍无法广泛应用。近年来，深度学习已经成为许多领域的研究热点，作为最成功的深度学习模型之一，卷积神经网络^[12]（convolutional neural network, CNN）因其学习性能突出、可移植性强的优势，在场景分类中取得了重要突破。CNN通过对特定数据集的自主学习，更新深度模型参数，输入图像经多段式升维，完成特征从低层向高层的抽象化过程，形成图像的分层表达。

目前基于CNN特征的土地利用分类方法主要有以下3种：

1）以预训练（pre-trained）的CNN作为特征提取器。一些学者直接利用CNN提取特征进行场景分类^[13-16]，如Hu等^[17]利用CNN特征与传统的BOVW、IFK（improved fisher kernel）等编码方式结合获取图像的最终表达向量；另有学者以支持向量机^[18]（support vector machine, SVM）代替softmax，也获得了性能上的改进。

2）微调预训练的CNN模型。该方法主要以相关数据集对CNN特定网络层进行参数训练^{[14, 19]}，提升了训练效率的同时有效加入了土地利用分类信息。实验表明微调的方法能有效提升土地利用分类精度。

3）训练新的CNN模型。对模型参数随机初始化，通过海量数据对整个CNN参数不断训练，提高模型性能。虽然该方法在一些分类任务中表现优异^[14]，但受限于训练数据量，在小样本分类任务中难以得到好的分类表现^[20]。

综上所述，针对土地利用分类任务的小样本属性，应采用微调的分类方法加入土地利用类型相关信息具有更好的应用性^[12]。

基于上述研究，为有效提升土地利用分类效果，本文提出一种多结构卷积神经网络特征级联（multi-structures convolutional neural networks feature cascading，MCNNFC）的分类方法，采用多类最优边界分配机^[21]（multi-class optimal margin distribution machine，mcODM）取代CaffeNet^[22]（convolutional architecture for fast feature embedding）、VGG-S^[23]（visual geometry group-slow）、VGG-F^[23]（visual geometry group-fast）中的softmax，以减少训练过拟合现象，并以UC Merced land-use数据集^[6]对上述网络的前两个全连接层参数进行微调，以微调后模型作为特征提取器，将第二个全连接层输出特征级联，获得图像的最终表达向量，输入mcODM中获得分类结果。

1 实验方法 1.1 级联卷积神经网络模型选择

本文基于MatConvNet^[24]深度学习框架，根据CNN利用小样本数据集进行微调的特点和CNN中滤波器尺寸差异（如表 1所示），选择了CaffeNet、VGG-S、VGG-F作为实验模型。其中CaffeNet的滤波器尺寸较大，数量多，网络结构简单，在分类和训练方面的运行速度较快；VGG-S网络构成和参数数量相对复杂，滤波器的特点为尺寸小但数量多，有助于充分提取图像信息，但处理速度较慢；VGG-F的网络结构与CaffeNet类似，滤波器构成具有尺寸大、参数量少的特点，因此图片处理速度快。本文流程如图 1所示，图中COV表示卷积层，FULC表示全连接层。

表 1 CNN模型各卷积层滤波器尺寸 Tab. 1 Filter's Size of the Convolutional Layer of CNN Models

模型	COV1	COV2	COV3	COV4	COV5
CaffeNet	11×11×3×96	5×5×48×256	3×3×256×384	3×3×192×384	3×3×192×256
VGG-S	7×7×3×96	5×5×96×256	3×3×256×512	3×3×512×512	3×3×512×512
VGG-F	11×11×3×64	5×5×64×256	3×3×256×256	3×3×256×256	3×3×256×256
注：11×11×3×96表示该卷积层滤波器由96个11×11×3的矩阵构成，其他类同

表选项

图 1 算法流程图 Fig. 1 Framework of the Algorithm

图选项

1.2 CNN模型参数微调

CNN在对图像进行特征提取时，其卷积层提取到图像的初步卷积特征，包含图像边缘、纹理、颜色等低层特征信息，网络层进一步将特征抽象化逐渐得到图像的类别信息。在整个特征提取过程中，卷积层负责将低层特征向高层特征转化，全连接层形成图像的全局表达，已有研究表明^[18-19]，全连接层具有更好的可训练性。因此本文保留预训练网络的卷积层参数，微调前两个全连接层的方法训练网络。

CNN微调将目标数据集和对应的标签输入网络，通过随机梯度下降法^[25]计算CNN实际输出与理论输出的误差最小平方和，更新网络权值和阈值，计算公式如下：

${E^N} = \frac{1}{2}\sum\limits_{n = 1}^N \sum\limits_{k = 1}^c {\left( {t_k^n - y_k^n} \right)^2}$

(1)

式中，t_kⁿ表示第n个样本xⁿ对应标签的第k维；y_kⁿ表示第n个样本对应的实际网络输出的第k维；c为训练样本的类别数；N为训练样本数量。

1.3 特征提取和降维

特征提取过程中，通过卷积层先对图像进行卷积运算提取图像特征，然后通过后续卷积层将特征逐层映射，形成高层特征并输入全连接层。在卷积运算时，设输入项为m×m的矩阵x，滤波器为n×n的矩阵k，卷积步长为1，得到特征图大小为（m-n+1）× (m-n+1)大小的矩阵F：

${F_{ij}} = f\left( {b_1 + \sum\limits_{i = 1}^n \sum\limits_{j = 1}^n k_{ij} \times x_{ij}} \right)$

(2)

式中，i∈R，j∈R，k_ij表示滤波器中第i行第j列的值；x_ij表示与k_ij对应的输入项的值；b₁为偏置项；f(·)为激活函数Relu(·)的表达式：

$f\left( z \right) = \left\{ {\begin{array}{*{20}{l}} {z, z > 0}\\ {0, z \le 0} \end{array}} \right.$

(3)

在提取特征后，为了避免特征维度过高，通常会利用池化层（sampling layer）进行降维，对于n-1卷积层输出的特征图${x^{n - 1}} = \left\{ {x_1^{n - 1}, x_2^{n - 1}, x_3^{n - 1} \ldots x_m^{n - 1}} \right\}$，在一定大小的处置域内计算最大值（或者平均值），得到${x^n} = \left\{ {x_1^n, x_2^n, x_3^n \ldots x_m^n} \right\}$的特征图集合，计算公式为：

$x_j^n = f\left( {b_j^n + \beta _j^n \times {\rm{down}}\left( {x_j^{n - 1}} \right)} \right)$

(4)

式中，down(·)表示下采样函数；β和b分别表示每幅特征图对应的乘性偏置和加性偏置。该过程避免了在特征向高层映射的过程中容易造成的“维数灾难”和过拟合问题。

另外，全连接层负责对前一层的输出结果${x^{n - 1}} = \{ x_1^{n - 1}, x_2^{n - 1}, x_3^{n - 1} \ldots x_m^{n - 1}\} $中的每一个输出节点x_j^n-1乘以权重系数W，加上偏置系数b得到x_jⁿ。矩阵形式表示为：

$\left[ {\begin{array}{*{20}{c}} {a_1^n}\\ {a_2^n}\\ {a_3^n} \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} {{W_{11}}}&{{W_{12}}}&{{W_{13}}}\\ {{W_{21}}}&{{W_{22}}}&{{W_{23}}}\\ {{W_{31}}}&{{W_{32}}}&{{W_{33}}} \end{array}} \right] \times \left[ {\begin{array}{*{20}{c}} {x_1^{n - 1}}\\ {x_2^{n - 1}}\\ {x_3^{n - 1}} \end{array}} \right] + \left[ {\begin{array}{*{20}{c}} {{b_1}}\\ {{b_2}}\\ {{b_3}} \end{array}} \right]$

(5)

式中，$\left[ {x_1^{n - 1}~~x_2^{n - 1}~~x_3^{n - 1}} \right]$为输入项；$\left[ {a_1^n~~a_2^n~~a_3^n} \right]$为输出项。将每张图像提取的特征转化为4 096维的全局列向量，则整个数据集将形成一个4 096×n（n为图片的数量）的向量矩阵。卷积层、池化层和激活函数将图像转换至隐层空间，全连接层将训练特征转换至样本标记空间。同时，由于全连接层包含参数多，选择全连接层微调能够高效提升数据集的分类精度。

1.4 特征级联与分类

对每张图片利用微调后的CNN模型提取图像全连接层特征后，得到3个独立的高层特征向量{F_CaffeNet，F_VGG-F，F_VGG-S}，通过如下公式获得级联特征：

${F_{{\rm{MCNNFC}}}} = \sum\limits_{i = 1}^n F_i$

(6)

式中，n为用于级联的CNN模型数量；F为CNN全连接层特征。

mcODM能有效解决多类别分类中边界优化问题，在与SVM的对比中，mcODM在分类精度、运行时间等方面展示出普遍优势^[21]。因此将得到的级联特征F_MCNNFC输入mcODM获得分类结果。分类时，数据集特征的30%为训练集，剩余70%为测试集。

2 数据来源及预处理

实验数据采用UC Merced land-use数据集^[6]，该数据集包括21种土地利用类型，每种土地利用类型有100幅256×256像素大小的正射影像图，共2 100幅，如图 2所示。

为凸显个体差异，在数据输入模型前先进行归一化处理。对训练集图片计算像素均值，然后将训练集和验证集图片分别去均值，以降低冗余信息对目标信息的干扰。最后将图片尺寸重塑为224×224像素，作为模型输入数据。像素均值计算公式为：

图 2 UC Merced land-use数据集图像实例 Fig. 2 Examples of UC Merced Land-Use Dataset

图选项

${\mathit{\boldsymbol{I}}_{{\rm{ave}}}} = \sum\limits_{n = 1}^N \left[ {\begin{array}{*{20}{c}} {\left( {1, 1} \right)}& \cdots &{\left( {1, j} \right)}\\ \vdots &{}& \vdots \\ {\left( {j, 1} \right)}& \cdots &{\left( {j, j} \right)} \end{array}} \right]/N$

(7)

$\mathit{\boldsymbol{I}} = {\mathit{\boldsymbol{I}}_0} - {\mathit{\boldsymbol{I}}_{{\rm{ave}}}}$

(8)

式中，I_ave为像素均值；N为图片总数；j为图片行列数（均为256）；I和I₀分别表示取均值后和取均值前的图片。

3 实验设计和结果分析 3.1 实验方案

实验环境为Windows 7系统搭载16 GB Intel(R) Core(TM) i7处理器，MATLAB 2014b软件平台。实验方案如下。

1）微调对分类精度的影响。根据训练过程中Loss值的变化曲线判断模型学习程度，并对比微调前后CNN特征的分类精度变化情况。

2）特征级联。将多个原始预训练CNN全连接层特征级联，尝试不同级联方法以获取最优分类结果，并将mcODM与经典的SVM两种分类器在多类别分类中的表现进行对比。

3）与其他分类方法的对比。选取了空间金字塔匹配（spatial pyramid matching，SPM）^[7]、BOVW+空间共现核（spatial co-occurrence kernel，SCK）^[6]、多特征软概率级联(multi-features soft-probability cascading, MFSC)^[10]等中层特征提取算法，VGG-S^[8]、VGG-M^[8]、VGG-F^[17]和VGG-19^[24]等CNN特征分类算法，局部聚合描述子向量(vector of locally aggregated descriptors，VLAD)+VGG-VD16^[17]、IFK+VGG-M^[17]、Using OverFeat^[13]、CaffeNet+SVM^[13]等CNN与传统方法结合的方法以及GoogLeNet with fine-tuning^[14]等微调预训练CNN模型的分类方法等，对各方法总体分类精度进行了对比。

3.2 实验结果和分析 3.2.1 微调

以UC Merced land-use数据集分别对所选CNN全连接层参数进行训练，参数设置为学习率0.01，批尺寸100（幅/批），权重衰减率0.002，训练集1 449幅，验证集651幅。通过训练损失值与验证损失值的发展趋势判断微调程度和过拟合现象^[15]。图 3展示了每次迭代后训练集和验证集所产生的损失、分类精度等。

图 3 损失值和分类精度 Fig. 3 Cross Entropy Loss and Classification Accuracy

图选项

由图 3可以看出，随着训练精度的提升，验证测试精度呈现出先快速增长后逐渐平稳的趋势，表明微调模型具有较好的泛化能力。同时，在前几次迭代过程中，训练损失值和验证损失值快速下降，随着迭代次数的增加又趋于平稳，VGG-S相比于其他两个网络的初始训练损失值更大，学习能力也相应更强，经过参数训练后，其验证精度提升幅度也最大。随着损失值不断减小，模型的学习能力逐渐下降，验证精度提升趋向平稳，3个模型分别在迭代次数（虚线处）等于12、16、17时损失值下降趋势达到平衡，此时模型学习能力趋向于零，训练停止。

图 4对比了微调前后总体分类精度的变化情况，分类器采用mcODM，训练集占比30%，测试集70%，重复10次取平均值。由图 4可以看出，微调后各方法总体分类精度均有明显提升，但由于网络结构的差异导致提升幅度不同。其中提升幅度最高的是CaffeNet，提升了5.71%，其次为VGG-F，提升了5.1%，提升幅度最小的是VGG-S的2.72%；微调后，分类精度最高的依然是MCNNFC，达到了97.55%。

图 4 CNN微调前后总体分类精度结果对比 Fig. 4 Result Comparison of CNN Overall Classification Accuracy Before and After Fine-Tune

图选项

3.2.2 特征级联

将级联方法根据级联CNN数量分为二网络级联和三网络级联，训练集随机提取30%，剩余70%为测试集，重复分类10次取平均值。实验结果如表 2所示。

表 2 不同级联方法分类结果/% Tab. 2 Result of Different Cascading Ways/%

分类方法	SVM	mcODM
CaffeNet	89.63±0.95	90.14±0.63
VGG-S	91.11±0.81	91.41±0.78
VGG-F	89.71±1.02	89.93±0.74
CaffeNet+VGG-S	92.45±0.71	92.72±0.34
VGG-S+VGG-F	92.59±0.60	92.36±0.58
CaffeNet+VGG-F	91.65±0.52	91.59±0.55
CaffeNet+VGG-S+VGG-F	92.81±0.86	93.88±0.72

表选项

在二网络CNN级联中，分类效果最好的是CaffeNet+VGG-S+mcODM方法，分类精度分别提升了2.58%和1.31%，其他两种方法最大提升值分别为1.94%和2.02%。三网络特征级联中，CaffeNet+VGG-S+VGG-F与mcODM分类器结合的方法获得了93.88%的分类精度。此外，在分类器的选择上，mcODM分类器在多组实验分类效果的对比上优于SVM，并且在稳定性上也占优。

综上所述，CaffeNet+VGG-S+VGG-F特征级联结合mcODM的方法对分类精度的提升效果最为显著。

3.2.3 与其他分类方法的对比

本节中的CNN级联特征为经微调处理的CaffeNet+VGG-S+VGG-F三网络特征级联的方法，特征均采用CNN第二个全连接层输出特征，以mcODM代替softmax分类器，对UC Merced land-use数据集图片分别提取形成4 096维特征，输入mcODM分类。随机选取UC Merced land-use数据集中每种地物类型的30%作为训练集，剩余70%作为测试集，重复分类10次取平均值。分类精度如表 3所示。

表 3 各分类方法在UC Merced land-use数据集上的分类精度 Tab. 3 Accuracy of the Proposed Method and State-of-the-Art Methods over UC Merced Land-Use Dataset

分类方法	分类精度/%
SPM^[7]	74
BOVW+SCK^[6]	77.71
MFSC^[10]	88.6
Using OverFeat^[13]	90.91±1.19
CaffeNet+SVM^[13]	93.42±1.00
VLAD+VGG-VD16^[17]	95.16
IFK+VGG-M^[17]	96.9
GoogLeNet with fine-tuning^[14]	97.1
VGG-S^[8]	87.76±0.66
VGG-F^[17]	94.35
VGG-M^[8]	87.15±0.80
VGG-19^[24]	91.8
CNN级联特征+SVM	96.71±0.42
CNN级联特征+mcODM	97.55±0.74

表选项

从表 3可以看出，SPM、BOVW+SCK、MFSC等以中层特征编码方式提升了低层特征的表达能力，但在与CaffeNet+SVM等以高层特征为主的分类方法的对比中处于明显劣势，可见高层特征极大地提升了分类精度。本文同时对比了SVM和mcODM在对级联特征的分类精度，实验表明mcODM分类精度高于SVM，达到97.55%。

图 5对比了各分类方法对单一土地利用类型的分类精度。其中中等密度、高密度、稀疏分别对应中等密度住宅区、高密度住宅区、稀疏住宅区。在类别Ⅰ中，MCNNFC超越单一CNN取得了最高分类精度；在类别Ⅱ中，MCNNFC和单一CNN均取得最高精度；在类别Ⅲ中，MCNNFC低于单一CNN的最高分类精度。

图 5 单一土地利用类型分类精度 Fig. 5 Classification Accuracy of Single Land Use by Different Methods

图选项

从图 5可以看出，各分类方法在类别Ⅰ的分类精度相对较低（90%以下），而MCNNFC大幅提升了该类分类精度；类别Ⅱ和类别Ⅲ的耕地、林地、跑道等土地利用类型中，总体分类精度在95%以上，各方法分类结果差异小，存在一定的浮动区间。一些土地利用类型如高密度住宅区、中等密度住宅区和稀疏住宅区由于房屋结构和纹理等相似，导致分类精度较低。因此，CNN特征级联普遍提升了单一土地利用类型的分类精度，尤其当分类精度较低时提升效果明显；但对于个别土地利用类型会出现分类精度下降的现象，说明级联特征个体之间也存在信息遮盖的问题。总体来说，微调后的CNN特征级联方法能够有效提升总体分类精度。

3.2.4 运行效率分析

本文对各方法从提取特征和分类两方面的运行时间进行了分析，分类器选用mcODM，实验结果如表 4所示。

表 4 各方法运行时间结果/s Tab. 4 Running Time Required for Each Method/s

分类方法	特征提取	mcODM分类	总时间
CaffeNet	149.4	12.6	162.0
VGG-S	326.9	16.7	343.6
VGG-F	286.5	16.1	302.6
CaffeNet + VGG-S	426.5	22.2	448.7
VGG-S + VGG-F	427.5	21.2	448.7
CaffeNet + VGG-F	284.0	18.6	302.6
CaffeNet + VGG-S + VGG-F	536.5	28.6	565.1

表选项

从表 4可知，运行时间最短的二网络级联模型为CaffeNet+VGG-F；单网络运行时间最快的是CaffeNet；运行时间最长的为CaffeNet+VGG-S+VGG-F，这主要由于每张图片要经过CaffeNet、VGG-S和VGG-F 3个模型提取特征，因此运行耗时较长。

4 结语

针对高分辨率遥感影像土地利用分类问题，本文提出的多结构卷积神经网络特征级联的分类方法通过理论分析、实验对比得到如下结论。

1）多结构CNN特征级联分类方法能够弥补单一卷积神经网络信息提取不足的缺点，在多类别分类任务中分类精度提升效果明显。实验中多结构CNN特征级联的方法总体分类精度达到97.55%，相对单一CNN分类精度提升2%~5%。

2）微调CNN全连接层参数能够有效提升分类精度。实验以CaffeNet、VGG-S和VGG-F等网络微调结果表明，分类精度提升幅度在3%~5%。

3）在分类器的选择上，mcODM比SVM分类效果更好，且在重复分类时分类精度波动性更小。

另外，多结构卷积神经网络特征级联方法存在运行时间较长、总体精度上升但个别类别精度下降的问题，这在后续研究中需要进一步的改进。

参考文献

[1]	Li Xuelong, Shi Jianhua, Dong Yongsheng, et al. A Survey on Scene Image Classification[J]. Science China: Information Science, 2015, 45(7): 827-848. (李学龙, 史建华, 董永生, 等. 场景图像分类技术综述[J]. 中国科学:信息科学, 2015, 45(7): 827-848. )

[2]	Huang Wei, Li Yonggang, Wang Yi, et al. Spatial Co- occurrence Kernel Based Aerial Image Classification[J]. Geomatics and Information Science of Wuhan University, 2017, 42(7): 884-889. (黄为, 李永刚, 汪毅, 等. 基于空间共现核的遥感影像分类[J]. 武汉大学学报·信息科学版, 2017, 42(7): 884-889. )

[3]	Gao Xianjun, Zheng Xuedong, Shen Dajiang, et al. Automatic Building Extraction Based on Shadow Analysis from High Resolution Images in Suburb Areas[J]. Geomatics and Information Science of Wuhan University, 2017, 42(10): 1350-1357. (高贤君, 郑学冬, 沈大江, 等. 城郊高分影像中利用阴影的建筑物自动提取[J]. 武汉大学学报·信息科学版, 2017, 42(10): 1350-1357. )

[4]	Xia G S, Hu J, Hu F, et al. AID: A Benchmark Data Set for Performance Evaluation of Aerial Scene Classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 55(7): 3965-3981.

[5]	Lowe D G. Distinctive Image Features from Scale- Invariant Keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110.

[6]	Yang Y, Newsam S. Bag-of-Visual-Words and Spatial Extensions for Land-Use Classification[C]. SIGspatial International Conference on Advances in Geographic Information Systems, ACM, California, USA, 2010

[7]	Lazebnik S, Schmid C, Ponce J. Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories[C]. IEEE Computer Vision and Pattern Recognition Workshops, New York, USA, 2006

[8]	Chatfield K, Simonyan K, Vedaldi A, et al. Return of the Devil in the Details: Delving Deep into Convolutional Nets[C]. British Machine Vision Conference, Nottingham, UK, 2014

[9]	Grauman K, Darrell T. Pyramid Match Kernels: Discriminative Classification with Sets of Image Features [C]. International Conference on Computer Vision, Beijing, China, 2006

[10]	Liu Yueyan, Wang Linyu, Zhang Bin, et al. Scene-Level Land Use Classification Based on Multi-features Soft-Probability Cascading[J]. Journal of Agricultural Engineering, 2016, 32(22): 266-272. (刘越岩, 汪林宇, 张斌, 等. 基于多特征软概率级联的场景级土地利用分类方法[J]. 农业工程学报, 2016, 32(22): 266-272. DOI:10.11975/j.issn.1002-6819.2016.22.037 )

[11]	Wang J J, Yang J C, Yu K, et al. Locality-Constrained Linear Coding for Image Classification[C]. Conference on Computer Vision and Pattern Recognition, San Francisco, USA, 2010 https://ieeexplore.ieee.org/document/5540018

[12]	Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[C]. International Conference on Neural Information Processing Systems, Lake Tahoe, Nevada, USA, 2012 https://www.mendeley.com/catalogue/imagenet-classification-deep-convolutional-neural-networks/

[13]	Penatti O A B, Nogueira K, Santos J A D. Do Deep Features Generalize from Everyday Objects to Remote Sensing and Aerial Scenes Domains? [C]. IEEE Computer Vision and Pattern Recognition Workshops, Las Vegas, USA, 2015 https://ieeexplore.ieee.org/document/7301382/?reload=true&arnumber=7301382

[14]	Castelluccio M, Poggi G, Sansone C. Land Use Classification in Remote Sensing Images by Convolutional Neural Networks [OL]. https://arxiv.org/abs/1508.00092.htm, 2015

[15]	Ge Yun, Jiang Shunliang, Ye Famao, et al. Remote Sensing Image Retrieval Using Pre-trained Convolutional Neural Networks Based on ImageNet[J]. Geomatics and Information Science of Wuhan University, 2018, 43(1): 67-73. (葛芸, 江顺亮, 叶发茂, 等. 基于ImageNet预训练卷积神经网络的遥感图像检索[J]. 武汉大学学报·信息科学版, 2018, 43(1): 67-73. )

[16]	Perronnin F, Mensink T. Improving the Fisher Kernel for Large-scale Image Classification[C]. European Conference on Computer Vision, Hersonissos, Greece, 2010

[17]	Hu F, Xia G S, Hu J, et al. Transferring Deep Convolutional Neural Networks for the Scene Classification of High-resolution Remote Sensing Imagery[J]. Remote Sensing, 2015, 7(11): 14680-14707. DOI:10.3390/rs71114680

[18]	Cortes C, Vapnik V. Support-Vector Networks[J]. Machine Learning, 1995, 20(3): 273-297.

[19]	Cheng G, Han J, Lu X. Remote Sensing Image Scene Classification: Benchmark and State of the Art[OL]. https://arxiv.org/abs/1703.00121.htm, 2017

[20]	Nogueira K, Penatti O A B, Santos J A D. Towards Better Exploiting Convolutional Neural Networks for Remote Sensing Scene Classification[J]. Pattern Recognition, 2017, 61: 539-556. DOI:10.1016/j.patcog.2016.07.001

[21]	Zhang T, Zhou Z H. Optimal Margin Distribution Machine[OL]. https://arxiv.org/abs/1604.03348v1, 2016

[22]	Jia Y, Shelhamer E, Donahue J, et al. Caffe: Convolutional Architecture for Fast Feature Embedding[C].ACM Multimedia, Orlando, USA, 2014 http://www.oalib.com/paper/4082099

[23]	Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-scale Image Recognition [C].International Conference on Learning Representations. San Diego, USA, 2015 http://www.oalib.com/paper/4068791

[24]	Vedaldi A, Lenc K. MatConvNet: Convolutional Neural Networks for MATLAB[C].ACM Multimedia, Brisbane, Australia, 2015

[25]	Kiefer J, Wolfowitz J. Stochastic Estimation of the Maximum of a Regression Function[J]. Annals of Mathematical Statistics, 1952, 23(3): 462-466. DOI:10.1214/aoms/1177729392