留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

利用PSP Net实现湖北省遥感影像土地覆盖分类

柴华彬 严超 邹友峰 陈正超

柴华彬, 严超, 邹友峰, 陈正超. 利用PSP Net实现湖北省遥感影像土地覆盖分类[J]. 武汉大学学报 ● 信息科学版, 2021, 46(8): 1224-1232. doi: 10.13203/j.whugis20190296
引用本文: 柴华彬, 严超, 邹友峰, 陈正超. 利用PSP Net实现湖北省遥感影像土地覆盖分类[J]. 武汉大学学报 ● 信息科学版, 2021, 46(8): 1224-1232. doi: 10.13203/j.whugis20190296
CHAI Huabin, YAN Chao, ZOU Youfeng, CHEN Zhengchao. Land Cover Classification of Remote Sensing Image of Hubei Province by Using PSP Net[J]. Geomatics and Information Science of Wuhan University, 2021, 46(8): 1224-1232. doi: 10.13203/j.whugis20190296
Citation: CHAI Huabin, YAN Chao, ZOU Youfeng, CHEN Zhengchao. Land Cover Classification of Remote Sensing Image of Hubei Province by Using PSP Net[J]. Geomatics and Information Science of Wuhan University, 2021, 46(8): 1224-1232. doi: 10.13203/j.whugis20190296

利用PSP Net实现湖北省遥感影像土地覆盖分类

doi: 10.13203/j.whugis20190296
基金项目: 

国家自然科学基金 U1810203

详细信息
    作者简介:

    柴华彬,博士,教授,主要从事变形监测与遥感影像处理方面的研究。chaihb@hpu.edu.cn

  • 中图分类号: P237

Land Cover Classification of Remote Sensing Image of Hubei Province by Using PSP Net

Funds: 

The National Natural Science Foundation of China U1810203

More Information
    Author Bio:

    CHAI Huabin, PhD, professor, specializes in the deformation monitoring and remote sensing image processing.chaihb@hpu.edu.cn

图(7) / 表(1)
计量
  • 文章访问数:  649
  • HTML全文浏览量:  283
  • PDF下载量:  106
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-12-02
  • 刊出日期:  2021-08-05

利用PSP Net实现湖北省遥感影像土地覆盖分类

doi: 10.13203/j.whugis20190296
    基金项目:

    国家自然科学基金 U1810203

    作者简介:

    柴华彬,博士,教授,主要从事变形监测与遥感影像处理方面的研究。chaihb@hpu.edu.cn

  • 中图分类号: P237

摘要: 提出了一种基于金字塔场景解析网络(pyramid scene parsing net,PSP Net)的深度学习算法。以湖北省遥感影像为实验数据,借助PSP Net的上下文场景解析能力,研究湖北省30 m分辨率的土地覆盖。实验使用了湖北省Landsat卫星影像中507景900×600像素的标准分幅影像,通过预处理生成了适用于深度学习的样本集。选择其中300景为样本,包括训练集240个、预测集44个和验证集16个。使用快速特征嵌入卷积结构(convolutional architecture for fast feature embedding,CAFFE)下的PSP Net模型对样本数据进行训练,设置了10×10-10的学习率,选择了第100万次的训练模型, 很好地防止了数据的过拟合。通过模型的泛化和样本的泛化与迭代,对湖北省2000年、2005年、2010年3期的Landsat卫星影像土地覆盖进行分类,分类精度分别达到82.2%、83.4%和83.7%。研究结果表明,基于PSP Net的深度学习算法可以快速、有效和精确地实现大范围的遥感影像土地覆盖分类。

English Abstract

柴华彬, 严超, 邹友峰, 陈正超. 利用PSP Net实现湖北省遥感影像土地覆盖分类[J]. 武汉大学学报 ● 信息科学版, 2021, 46(8): 1224-1232. doi: 10.13203/j.whugis20190296
引用本文: 柴华彬, 严超, 邹友峰, 陈正超. 利用PSP Net实现湖北省遥感影像土地覆盖分类[J]. 武汉大学学报 ● 信息科学版, 2021, 46(8): 1224-1232. doi: 10.13203/j.whugis20190296
CHAI Huabin, YAN Chao, ZOU Youfeng, CHEN Zhengchao. Land Cover Classification of Remote Sensing Image of Hubei Province by Using PSP Net[J]. Geomatics and Information Science of Wuhan University, 2021, 46(8): 1224-1232. doi: 10.13203/j.whugis20190296
Citation: CHAI Huabin, YAN Chao, ZOU Youfeng, CHEN Zhengchao. Land Cover Classification of Remote Sensing Image of Hubei Province by Using PSP Net[J]. Geomatics and Information Science of Wuhan University, 2021, 46(8): 1224-1232. doi: 10.13203/j.whugis20190296
  • 遥感影像分类方法是研究土地覆盖及其变化的最重要手段。传统的遥感影像分类方法有目视解译法、统计分析法、聚类分析法等[1-3]。这些方法虽然简单、灵活,但是其局限性大且花费时间长、解译精度差,已经不适合当今的海量遥感影像分类。之后发展的支持向量机、决策树和人工神经网络等分类法[4-6],在数据处理的速度上无法满足数据的大尺度和时效性。

    近年来,深度学习的出现为遥感影像分类提供了新方法[7-9]。深度学习是一种深层次结构的神经网络,可以比支持向量机、决策树和人工神经网络等浅层结构模型更好地提取遥感影像的特征,在影像分类中,取得了比以往更高的精度,有效地推动了遥感影像自动化、智能化解译的发展。

    在深度学习迅速发展之后,全卷积神经网络(fully convolutional network,FCN)使得图像分割进入了新的阶段,像素不仅能够按照物体类别进行分类,图像分割精度也得到提升[10-12]。目前,基于FCN的模型的主要问题是缺乏合适的策略来利用全局场景类别线索,不能有效地处理场景之间的关系和全局信息。

    金字塔场景解析网络(pyramid scene parsing net,PSP Net)是基于FCN的语义分割网络[13-16]。它可以将FCN的像素预测框架中嵌入困难场景的上下文特征,完整理解场景的进行,实现对每个像素类别、位置和形状的准确预测,并将局部和全局信息融合在一起,提出一个适度监督损失的优化策略。

    随着国家经济的发展,各类建设用地迅速增多,城市面积急剧扩大,土地覆盖变化剧烈。Landsat 5是目前运行时间最长的对地观测卫星,它搭载的专题测图仪(thematic mapper,TM)为地球提供了近29年的成像数据。使用深度学习算法能够对TM数据进行语义分割,更好地实现遥感影像的分类。

    本文使用507景900×600像素的湖北省标准分幅影像,借助PSP Net的上下文场景解析能力,通过模型的泛化和样本的泛化与迭代,获得了湖北省30 m分辨率的土地覆盖分类。

    • FCN能够通过构建多层的卷积层自动提取图像上的特征。FCN结构和其他神经网络结构类似[13, 17],分为输入层、隐藏层和输出层,如图 1所示。输入层有n个节点,隐藏层有m个节点,输出层有q个节点,输入层和隐藏层间的权重为Rki,隐藏层和输出层间的权重为Wjk

      图  1  全卷积神经网络结构

      Figure 1.  Structure of Fully Convolutional Network

      FCN的隐藏层包含卷积层、激励函数和池化层。

      1) 卷积层。该层的功能是对输入数据进行特征提取,其内部包含多个卷积核,组成卷积核的每个元素都对应一个权重系数和一个偏差量。卷积层内每个神经元都与前一层中位置接近的区域的多个神经元相连。以二维卷积核为例[18],其模型为:

      $$ {Z}^{l+1}(i, j)=[{Z}^{l}\otimes {w}^{l+1}](i, j)+b $$ (1)

      式中,$ (i, j)\in \left\{\mathrm{0, 1}, 2\cdots {L}_{l+1}\right\} $,$ {L}_{l+1}=\frac{{L}_{l}+2p-f}{{S}_{0}}+1 $;b为偏差量;ZlZl+1表示第l+1层的卷积输入和输出;Ll+1Zl+1的尺寸;Z(ij)为对应特征图的像素;fS0p是卷积层参数,对应卷积核大小、步长和填充层数,共同决定卷积层输出特征图的尺寸。

      2) 激励函数。类似于其他深度学习算法,激励函数操作通常在卷积核后,卷积层中包含激励函数以协助表达复杂特征。

      设卷积层为第l层,令Nl表示l层的特征映射数量,每个特征映射被表示为$ {h}_{j}^{l} $(j=1,2…Nl),该卷积层被参数化为两个数组层中的第j个特征映射$ {h}_{j}^{l} $,每个卷积核充当特征检测器,用于通过卷积操作提取图像特定的特征。

      为了获得$ {h}_{j}^{l} $,将输入的特征图$ {h}_{j}^{l-1} $(j=1,2…$ {N}^{l-1} $)与相应的滤波器$ {w}_{ij}^{l} $进行卷积,通过修正线性单元(rectified linear unit,ReLU)实现梯度下降及反向传播[15],将第l层的特征图表示如下:

      $$ {h}_{j}^{l}=\Phi (\sum\limits_{j=1}^{{N}^{l-1}}{h}_{j}^{l-1}\times {w}_{ij}^{l}+{b}_{j}^{i}) $$ (2)

      3) 池化层。在卷积层进行特征提取后,输出的特征图被传递至池化层进行特征选择和信息过滤。池化层为采样特征映射层,通过降低特征的分辨率来防止过拟合。同时,能实现减少网络参数,保持图像的平移、伸缩和旋转不产生变形。本文选用的池化模型[19]为:

      $$ {A}_{k}^{l}(i, j)={\left[\sum\limits_{x=1}^{f}\sum\limits_{y=1}^{f}{A}_{k}^{l}({S}_{0}i+x, {S}_{0}{j+y)}^{p}\right]}^{1/p} $$ (3)

      式中,步长S0、像素(ij)的含义与卷积层相同;p为预指定参数。当p=1时,在池化区域内取均值;当p→∞时,在池化区域内取极大值。

    • FCN最主要的优势是利用跳跃结构对不同池化层的结果进行采样,再通过优化这些采样结果,得到精确分割结果。对具体目标检测或者分割任务来说,FCN网络本身具有强大的特征提取能力,但是其分割结果比较粗糙。

      利用金字塔池化结构代替FCN中最后一层池化层,能够解决输入网络中图片尺寸固定的限制,同时通过金字塔池化层,把上一层卷积层的特征图以不同尺度进行特征池化,能增加算法的鲁棒性,提高识别精度。

    • 快速特征嵌入卷积结构(convolutional architecture for fast feature embedding,CAFFE)是一个兼具表达性、速度和思维模块化的深度学习框架,支持多种类型的深度学习架构,用于图像的分类和分割[20-21]。它是开源的框架,核心语言是C++,支持命令行、Python和Matlab接口,既可以在中央处理器上运行,也可以在图形处理器上运行。

      首先,基础层经过CAFFE深度学习框架的预训练模型和全卷积策略提取特征图层,提取后的特征图层是输入影像的1/8大小,特征图层经过金字塔池化模块得到融合的带有上下文整体信息的特征;然后,将池化前的特征图层与采样结果相连接;最后,经过卷积层后得到最终输出结果。

    • 研究区影像是湖北省2000年、2005年、2010年3期Landsat 5 TM影像的6波段数据,这些数据来源于地理空间数据云和美国国家地质勘查局网站。所选影像的成像时间多为夏季,且云量少。对影像进行辐射定标、大气校正、镶嵌及裁剪等预处理操作后分幅导出,得到507景900×600像素的影像,样本数据同样地将分类结果通过程序规整后,再分幅导出得到与遥感影像名称相对应的507景分类结果。

      样本选择湖北省的土地覆盖数据,采用面向对象解译方法完成。根据土地覆盖类型的特征与光谱规律[12],参数层划分为4个层次与5个分支节点,具体节点为水面与非水面、植被与非植被、线性与非线性、耕地与非耕地、落叶与非落叶。下层依据区域特征进一步设计,通过对象的解译标志库和样本训练,建立分类决策树指标与决策树结构,通过决策树的分级,不断提纯类型,得到单个类别划分的结果[22-23]

      通过交互式数据语言(interactive data language,IDL)程序,重构原始样本中38个二级分类结果,得到包括未分类的8个类别,获得的样本分类体系如表 1所示[24]

      表 1  样本分类体系

      Table 1.  Sample Classification System

      类别 二级分类结果
      林地 常绿阔叶林、落叶阔叶林、常绿针叶林、落叶针叶林、针阔混交林、常绿阔叶灌木林、落叶阔叶灌木林、常绿针叶灌木林、乔木园地、灌木园地、乔木绿地、灌木绿地等
      草地 草甸、草原、草丛、草本绿地等
      湿地 森林湿地、灌丛湿地、草本湿地等
      水体 湖泊、水库/坑塘、河流、运河、水渠等
      耕地 水田、旱地等
      人工地表 居住地、工业用地、交通用地等
      裸地 苔藓、地衣、裸岩、裸土、沙漠、沙地、盐碱地等
    • 本文采用Ubuntu16.04.4LTS操作系统,在ArcGIS、ENVI、Erdas等专业软件以及IDL语言和Python语言编程技术的支持下,分析了湖北省土地覆盖类型。搭建实验使用的深度学习CAFFE框架需要安装依赖包,依次安装英伟达显卡驱动、通用并行计算架构(compute unified device architecture,CUDA)、深度神经网络(compute unified deep neural network,CuDNN)库和开放源代码计算机视觉(open source computer vision,OpenCV)类库,将PSP Net源码编译CAFFE框架,完成深度学习框架的搭建。

    • 利用ENVI 5.3等软件对源数据进行辐射定标和大气校正,再利用像素工厂进行影像拼接与裁剪。将通过预处理得到的数据与样本数据生成影像样本集。

      使用CAFFE深度学习框架下的PSP Net模型对湖北省Landsat TM影像的样本数据进行训练,对模型精度评价,通过模型的泛化和样本的泛化与迭代,实现湖北省遥感影像土地覆盖分类。

      实验选出的样本分为训练集、预测集和验证集。通过编写程序,将样本的最后一个波段叠加到影像的最后一个波段,使TM影像变成7‍波段数据,其中240个900×600像素样本作为训练集,44个样本作为测试集,16个样本作为验证集,如图 2所示。

      图  2  实验样本选择

      Figure 2.  Experimental Sample Selection

    • 对利用深度学习PSP Net语义分割生成的3‍期湖北省土地覆盖图进行精度评价。在统计学中,假设数据满足独立同分布,可以用已有数据进行训练,使用训练所得到的模型拟合未来数据。但是现实中独立同分布这种假设是不成立的,数据分布可能会产生变化,并且当前数据量过少,不足以对整体数据集进行分布估计。为了提高预测模型的泛化能力,需要防止模型过拟合。

    • 将2010年湖北省遥感影像数据集导入深度学习服务器,使用CAFFE深度学习框架中的Python程序进行运算。运算网络通过最核心的结构(金字塔池化模块)获得全局的特征信息,完成了数据集的生成。通过测试,设置10×10-10的学习率,选择每100万次迭代运算获得的模型,对整个湖北省507景6波段TM影像数据进行预测,最终获得2010年期湖北省土地覆盖的预测结果,如图 3所示。

      图  3  2010年湖北省土地覆盖分类结果

      Figure 3.  Result of Land Cover Classification About Hubei Province in 2010

      为了评价预测模型的精度,采用总体精度指标(overall accuracy,OA)作为初步评价模型的预测精度指标[18]。OA表示被正确分类的样本数与研究区域总样本数之比,即

      $$ {\rm{OA}}=\frac{\sum\limits_{i=1}^{8}{a}_{ii}}{\sum\limits_{i=1}^{8}\sum\limits_{j=1}^{8}{a}_{ij}} $$ (4)

      式中,i表示样本类别;aii表示第i类正确分类到i类的像元个数;aij表示把第i类分类到第j类的像元个数。

      OA的数值越大,表示分类正确的结果越多,分类精度越高,结果越可信;反之,表示分类精度越低,结果越不可信[25-26]

      本次实验在507景样本和预测数据中使用固定和随机两种方式,在每景影像中选择20 000个同位点,整个湖北省选择了10 140 000个点,将这些点作为验证的总样本。通过波段运算,获得一景样本和预测结果的差值文件。

    • 模型的泛化是通过机器学习算法对具有同一规律的学习集以外的数据,经过训练网络能给出合适的输出结果。模型的泛化能力是指对于已知的数据(训练集)性能表现良好,对于未知的数据(测试集)也应该表现良好。测试集的误差被称为泛化误差。模型的过拟合与欠拟合可以最直观地区分出模型泛化能力的优劣。

      通过训练和选择获得2010年OA精度为83.7%的预测模型,利用该模型的泛化对2005年数据的预测结果和2005年TM影像在ArcGIS中叠加后显示,将透明度设置为50%,分类结果显示如图 4所示。

      图  4  2005年预测数据与影像叠加

      Figure 4.  Prediction Data of 2005 and Image Overlay

    • 虽然PSP Net网络对于错误的样本有一定的抗干扰的能力,但是2005—2010年很多地方的变化很大,若完全使用同一套样本数据,则这些错误的样本会使模型快速过拟合,精度会偏低。

      将2010年变化大的区域(如人工地表)使用矢量栅格化的工具将其标记并替换出来,与2010年的原始样本、分类结果较好的样本(如水体)和部分变化不大的样本(如大面积的林地、耕地、水体、草地和湿地等)合起来,组成整个原始的样本库。为了充分提高模型的泛化能力,需要对样本进行泛化和迭代,即不完全使用2010年的数据样本作为2005年数据样本进行深度学习和训练。

      本次实验中,选择了100景来自模型泛化后得到的数据和100景2010年中变化不大的样本数据组成了原始的样本库。将这些数据中的180景数据作为训练集,20景作为验证集和预测集。对于2005年的数据,初次训练时样本库的样本数量为200景。将这些样本和2005年的影像导入深度学习服务器,进行模型训练。

      通过实验可知,训练次数设为100万次,可有效地防止数据过拟合。第1次迭代后,增加了20景样本进入训练集;第2次迭代后,增加了31景样本进入样本库;经过3次迭代后,对湖北省2005年TM影像进行预测,获得了较好的预测结果,如图 5所示。

      图  5  2005年湖北省土地覆盖分类结果

      Figure 5.  Result of Land Cover Classification About Hubei Province in 2005

      为了评价湖北省2005年土地覆盖的分类精度,随机且类别均匀地在该期影像及预测结果中找了1 000个点,其中,有834个点的分类结果是正确的,根据OA评价出整个2005年预测结果的精度为83.4%。

      使用同样的方法,获得了2000年TM影像的分类结果,如图 6所示。

      图  6  2000年湖北省土地覆盖分类结果

      Figure 6.  Result of Land Cover Classification About Hubei Province in 2000

      在2000年分类结果和影像中分别随机均匀选择了1 000个点,其中,有822个点的分类结果正确,根据OA评价出整个2000年预测结果的精度为82.2%。

    • 利用基于PSP Net的深度学习算法与传统的机器学习算法对遥感影像解译效果进行对比分析,从解译结果中分别选取两部分进行细节对比,如图 7所示。

      图  7  不同方法分类结果对比

      Figure 7.  Comparisons of Classification Results with Different Methods

      数据1为人工地表聚集的武汉市区域。在传统的机器学习算法分类结果中,一些地类没有很好地分出来,如城市区域应属于人工地表的类别,但是这些地方没有被模型区分出来,如图 7(b)所示。而利用基于PSP Net的深度学习算法分类结果中,人工地表、耕地、水体和林地等各个地类在武汉市区域都能较好地区分出来,如图 7(c)所示。

      数据2的中间部分明显是耕地,但是传统的机器学习算法将其识别为了林地,如图‍7‍(b)所示。而基于PSP Net的深度学习算法能够将一些线状、面积很小的水体准确地区分出来,如图 7(c)所示。

    • 本文针对湖北省2000年、2005年和2010年3‍期TM影像的成像特点和波段特征,在FCN的基础上,提出了基于PSP Net的深度学习算法。通过修改和优化网络,排除过拟合效应后,使用CAFFE框架下的PSP Net模型对样本数据进行训练,在学习率为10×10-10的条件下,选择迭代次数为100万次的结果,有效地防止了数据的过拟合。

      通过模型的泛化和样本的泛化与迭代,对湖北省3期的TM影像进行语义分割和土地覆盖分类,分类的总体精度分别达到82.2%、83.4%和83.7%。研究表明,基于PSP Net的深度学习算法能够快速、有效和精准地对大范围的土地覆盖进行分类。

参考文献 (26)

目录

    /

    返回文章
    返回