留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

面向机器阅读的地图名称注记类别识别方法

任福 侯宛玥

任福, 侯宛玥. 面向机器阅读的地图名称注记类别识别方法[J]. 武汉大学学报 ● 信息科学版, 2020, 45(2): 273-280. doi: 10.13203/j.whugis20180503
引用本文: 任福, 侯宛玥. 面向机器阅读的地图名称注记类别识别方法[J]. 武汉大学学报 ● 信息科学版, 2020, 45(2): 273-280. doi: 10.13203/j.whugis20180503
REN Fu, HOU Wanyue. Identification Method of Map Name Annotation Category for Machine Reading[J]. Geomatics and Information Science of Wuhan University, 2020, 45(2): 273-280. doi: 10.13203/j.whugis20180503
Citation: REN Fu, HOU Wanyue. Identification Method of Map Name Annotation Category for Machine Reading[J]. Geomatics and Information Science of Wuhan University, 2020, 45(2): 273-280. doi: 10.13203/j.whugis20180503

面向机器阅读的地图名称注记类别识别方法

doi: 10.13203/j.whugis20180503
基金项目: 

国家自然科学基金 41571438

国家重点研发计划 2016YFC0803106

详细信息
    作者简介:

    任福, 博士, 教授, 主要从事新媒体地图学和智能制图研究。renfu@whu.edu.cn

    通讯作者: 侯宛玥, 硕士生。houwanyue@whu.edu.cn
  • 中图分类号: P209

Identification Method of Map Name Annotation Category for Machine Reading

Funds: 

The National Natural Science Foundation of China 41571438

the National Key Research and Development Program of China 2016YFC0803106

More Information
    Author Bio:

    REN Fu, PhD, professor, specializes in new media cartography and intelligent mapping. renfu@whu.edu.cn

    Corresponding author: HOU Wanyue, postgraduate. houwanyue@whu.edu.cn
图(12) / 表(1)
计量
  • 文章访问数:  705
  • HTML全文浏览量:  110
  • PDF下载量:  88
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-07-29
  • 刊出日期:  2020-02-05

面向机器阅读的地图名称注记类别识别方法

doi: 10.13203/j.whugis20180503
    基金项目:

    国家自然科学基金 41571438

    国家重点研发计划 2016YFC0803106

    作者简介:

    任福, 博士, 教授, 主要从事新媒体地图学和智能制图研究。renfu@whu.edu.cn

    通讯作者: 侯宛玥, 硕士生。houwanyue@whu.edu.cn
  • 中图分类号: P209

摘要: 地图在人们的生产生活中发挥着重要作用,地图注记中蕴含大量信息,识别地图名称注记类别对未来计算机阅读地图以及进一步绘制地图具有重大意义。近年来,热门的深度学习技术尤其是卷积神经网络对解决图像分类问题具有良好效果,使用训练集对卷积神经网络进行训练,神经网络模型可以提取出数据集图片中的特征,并不断调整模型参数直到训练完成。以谷歌的开源框架TensorFlow作为实验的深度学习平台,对多部地图集的多份注记数据集进行智能分类研究,从地图集中人工获取注记图片作为样本数据集,构建卷积神经网络模型并尝试混合训练和分开训练两种方式。实验表明,混合训练方式获得的模型表现更加出色。

English Abstract

任福, 侯宛玥. 面向机器阅读的地图名称注记类别识别方法[J]. 武汉大学学报 ● 信息科学版, 2020, 45(2): 273-280. doi: 10.13203/j.whugis20180503
引用本文: 任福, 侯宛玥. 面向机器阅读的地图名称注记类别识别方法[J]. 武汉大学学报 ● 信息科学版, 2020, 45(2): 273-280. doi: 10.13203/j.whugis20180503
REN Fu, HOU Wanyue. Identification Method of Map Name Annotation Category for Machine Reading[J]. Geomatics and Information Science of Wuhan University, 2020, 45(2): 273-280. doi: 10.13203/j.whugis20180503
Citation: REN Fu, HOU Wanyue. Identification Method of Map Name Annotation Category for Machine Reading[J]. Geomatics and Information Science of Wuhan University, 2020, 45(2): 273-280. doi: 10.13203/j.whugis20180503
  • 地图是人们认识世界的重要工具,它是对自然、社会现象的符号化、模型化的表示,是地理信息的承载者。地图不仅与人们的日常生活息息相关,还在国民经济、国防建设以及相关学科的科学研究中发挥重要作用[1]

    注记是地图中的重要要素,它可以解释地图内容,帮助理解地图,使地图发挥更好作用。地图注记可分为名称注记、说明注记和数字注记,分别对地物的名称、属性性质、数量特征进行说明。其中,名称注记可按被注记对象的种类进行分类,如分为水系注记、居民点注记、地貌注记等。这种分类方式下的地物名称注记类别随着地物类别的不同而不同,其类别的差异体现在表现形式上。地图注记表现形式的多样性体现在注记的字体、尺寸、颜色、间隔、方向、顺序6个方面[1],在一部地图集中,不同类型的地物注记字体颜色等属性都有统一的要求。例如最典型的水系注记,一般要求其字体为左斜字体,字色为青色,这些要求构成了不同类别注记的特征。

    正确读图是充分发挥地图功能的关键,尤为重要的是对地图上注记的解读。在人工智能、深度学习迅速发展的时代,计算机的智能程度大大增强,对图像、人脸、指纹、声纹、虹膜的识别准确率大幅度提升,使未来计算机阅读地图以及进一步绘制地图成为可能,而让计算机从人类视觉角度提取特征并对地图上的注记进行分类和阅读是其中最重要的要素之一。

    • 传统的图像分类方法中,特征提取是研究的重点,比如通过提取颜色特征[2]、纹理特征[3]、形状特征[4]和空间关系特征[5]等识别图像。分类算法也有很多种,比如常见的有支持向量机算法[6]、决策树算法[7]K-最近邻分类算法[8]、贝叶斯分类法[9-10]等。随着2006年深度学习概念的提出,越来越多的研究都开始使用深度学习的方法[11]进行图像识别,其中又以卷积神经网络为研究重点,其具有出色的表现。

      人们对于名称注记类别的辨认往往是结合注记的文字内容及其所标识地物的符号进行,如以“山”字结尾的注记就会被辨认为山峰注记。因此,人们对于地图中名称注记类别的考虑主要集中在制图过程中,而不是读图过程中,而机器对于名称注记类别的辨别往往脱离于注记的文字内容和其所标识的要素符号,完全是以名称注记的表现形式作为依据。人们更关注的是名称注记的内容,其表明了要素的名称,但名称注记的类别对机器具有重要意义。机器阅读地图需要识别出地图中的各要素种类,通过识别名称注记的类别从而识别注记所标识要素的类别,在一定程度上降低了机器阅读地图的难度,为计算机阅读地图提供了一种前进的思路和可能性。因此,使用深度学习的方法实现计算机对地图名称注记的智能分类识别,对于计算机的读图乃至制图具有重要意义。

      目前,对地图名称注记类别进行智能识别的研究还比较少见,以国内研究为主,主要集中在对注记中的文字及数字进行提取和识别。识别的方法大致分为神经网络[12-15]和非神经网络[16-17]的计算机视觉算法。如今,谷歌已经将深度学习技术应用在谷歌地图的识别系统中,实现了从谷歌街景地图中提取门牌号,节省了大量的人力物力。谷歌研究者Wojna等[18]应用深度学习网络在街景图中提取出了街道名称。

      深度学习是机器学习的一个重要分支,采用深度神经网络进行学习在很多方面突破了机器学习的技术瓶颈。卷积神经网络是深度学习中较为重要的一类模型,1983年Fukushima等[19]提出的神经认知机可看作是最早的卷积神经网络原型,之后卷积神经网络便开始在图像识别领域中被广泛应用,其主要由输入层、卷积层、池化层、全连接层和Softmax层构成[20]

      稀疏连接和权值共享[21]是卷积神经网络的两个主要特征,是减少参数个数的主要原理。稀疏连接是上一层节点只和下一层的部分节点连接,如图 1所示。权值共享是不同神经元之间的连接享有相同的权值[22],如图 2所示,节点之间具有相同形状的连线边上具有共同的权值。

      图  1  稀疏连接原理图

      Figure 1.  Schematic Diagram for Sparse Connection

      图  2  权值共享原理图

      Figure 2.  Schematic Diagram for Shared Weights

      图 1中底层神经元主要进行图像边缘的处理、识别,而顶层神经元提取的是抽象程度更高的特征,识别等级更高,并能进行分类。图 2共享权值的机制不仅可减少所需的权重数量,而且能实现图像识别与图像位置、大小、旋转角度变化的无关性,具有重要意义。

    • 本文在已有的研究基础上使用深度学习中的卷积神经网络作为分类模型,以TensorFlow作为实验中的深度学习框架,对地图集中的名称注记图片类别进行识别。

      一部地图集中的名称注记表现形式具有严格统一的规范,对单部地图集中的名称注记使用卷积神经网络进行特征提取和智能分类较为简单,因此本文采集多部地图集中的名称注记图片,形成多份注记数据集,并进行注记的智能分类实验。多份数据集对于注记的智能分类有混合训练和分开训练两种方式。混合训练是将多部地图集的多份数据集合并形成一份训练集和测试集,训练出一个卷积神经网络模型,该模型同时对多部地图集进行学习,并对测试集中不同地图集的任一名称注记图片输出类别结果,完成对它的智能分类。分开训练即用多部地图集的多份数据集形成多份训练集和测试集,分别训练出多个卷积神经网络模型,每个模型只对其中一部地图集进行学习。测试时,将多份测试集合成一份,其中的任意一幅注记图片都由之前训练出的多个卷积神经网络模型进行分类,每个模型输出一个分类结果,使用投票法确定该幅注记图片的最终分类结果,即选择所有卷积神经网络模型中输出最多的名称注记类别作为最终结果。

    • 本文地图名称注记智能分类实验中获取的数据集来自5部地图集,分别是2013年福建省地图出版社出版的《福建省地图集》、2016年武汉大学出版社出版的《沈阳市行政区域界线详图集》、2013年湖南地图出版社出版的《浙江省行政区划图集》、2014年中国地图出版社出版的《湖北省地图集》和2011年西安地图出版社出版的《山西省地图集》。

      这5部地图集均是行政区划图集,其中包含较为清晰和较多数量的注记。一般图像的分类是根据图像中的内容物体进行分类,比如人物、动物、风景等,而地图中名称注记的分类更多的是参考注记所标识要素的类别。因此,根据地图集内容、显著表现形式、注记描述要素类型等方面将名称注记分为4类进行样本的采集和标注,分别为山峰注记、地名注记、区域注记和水系注记,地图中的要素也可按照这4类进行分类。各地图集的4种注记类型示例如图 3所示。

      图  3  5部地图集中注记示例

      Figure 3.  Examples of Annotation Dataset in Five Atlas

      图 3可知,不同地图集的4种注记形式各有不同的特点,但整体观察又存在一些共同特征,比如区域注记字体都用红色表示,水系注记字体都用蓝色表示,不同类型的注记在字体、字形、字色等方面存在较大的区分度。

      《福建省地图集》 《浙江省行政区划图集》 《湖北省地图集》 《山西省地图集》这4部地图集采集到的数据集中,每类注记图像中都包含90张训练数据、14张测试数据以及10张验证数据。而《沈阳市行政区域界线详图集》的注记数据集中,地名注记、区域注记和水系注记每类注记图像都包含90张训练数据、14张测试数据以及10张验证数据,但其山峰注记类别中只有36张训练数据、7张测试数据以及4张验证数据,因为它只是市级的地图集,没有足够的山峰注记类别供采集。5部地图集共采集2 213张注记图片数据,训练集中1 746张,测试集中273张,验证集中194张,训练集、测试集、验证集的具体分类及数量如表 1所示。

      表 1  注记图像样本分类及数量

      Table 1.  Classifications and Amounts of Annotation Image Samples

      注记类别 图像数量 训练集数量 测试集数量 验证集数量
      山峰注记 503 396 63 44
      地名注记 570 450 70 50
      区域注记 570 450 70 50
      水系注记 570 450 70 50

      每张图片都是RGB模式的JPEG图像格式文件,图像像素大小不完全相同,大致都在200×200以内,因卷积神经网络的权值共享机制,训练模型的分类效果与图片的尺寸大小无关。

    • 设计共有6层结构的卷积神经网络模型,两个卷积层、两个最大池化层和两个全连接层。输入层输入的是经过处理的200×200×3的注记图片像素矩阵,第1个卷积层尺寸为5×5,深度为16;第2个卷积层尺寸为5×5,深度为32。两个池化层尺寸都为3×3,步长为2。第1个全连接层的节点个数为128,第2个全连接层节点个数为4,即为输出类别数。在卷积层和池化层的滑动中都进行全0填充,填充后,若步长为1,则滑动前后的图像尺寸不变,这不仅可以保持卷积核的工作模式不变,而且还可以保持边界信息。在边界上进行全0填充,可以使原图像的边界被多次扫描,增加图像边界信息的参考程度。模型结构示意图如图 4所示。

      图  4  卷积神经网络模型结构示意图

      Figure 4.  Schematic Diagram of Convolutional Neural Network Model

      利用采集获得的数据集在TensorFlow平台上完成设计好的模型的构建、训练以及测试。模型训练实施过程中的工程代码共分为5个子文件,通过这些文件的运行即可完成设计的卷积神经网络模型的构建和训练。在预处理过程中,通过裁剪调整图片大小,若图片大小小于目标尺寸,则函数会自动在原始图片周围填充全0背景直到与目标尺寸相等;若图片大小大于目标尺寸,则函数会截取原始图像中心与目标尺寸相等的部分。

      为了保证神经网络中神经元的不对称性,实践中大多把权重的初始值设置为接近于0的较小随机数,通过设定随机数使生成的方差为0.1,产生的随机数接近于0且彼此相似。实践表明,这样可以在训练模型时迅速收敛[23]。权重的随机小数值的初始化已打破神经元的对称性,因此对于偏置项,通常初始化为0[23]。选用结构简单、容易计算的线性整流函数作为模型的激活函数,使用随机梯度下降的方法训练模型。

      模型训练过程中要配置参数,滑动平均模型衰减率为0.99,正则化损失占比为0.001,学习率衰减率为0.99,这3个参数是根据经验按照常用值设置的;学习率和训练总迭代次数这两个参数是根据实验选定的,学习率初始值为0.01时,训练得到模型最好,总迭代次数为16 000,实验结果发现,总迭代次数达到14 000之后,准确率已趋于稳定。

      训练模型时,直接使用model.py中的前向传播过程得到输出结果,将输出结果经过Softmax层与真实标签相比,计算交叉熵和准确率,以交叉熵加上正则化项的损失函数最小化为目标,通过随机梯度下降算法进行模型参数的不断调整优化,直到完成训练,并使用指数衰减学习率和滑动平均算法模型的方法优化模型效果。为了防止过拟合,每次迭代按照一定概率舍弃部分神经网络单元不参与训练[24]

    • 对5部地图集的5份数据集使用混合训练和分开训练两种方式分别构建和训练出1个和5个卷积神经网络,并进行地图集名称注记测试集的分类实验。分类实验的准确度使用训练完成的模型对测试集的分类准确率进行衡量,即分类正确的样本数占全部测试集样本数的比例。

    • 将5部地图集的注记数据集叠加起来形成一份数据集,用这份数据集完成一个图 4结构的卷积神经网络模型的训练和测试。经过16 000轮训练后,使用测试集进行分类测试,以验证模型的效果。对山峰注记、地名注记、区域注记和水系注记这4类注记进行分开测试,测试集分类的准确率分别为80.952%、100%、98.571%、98.571%。其中,山峰注记类别的识别准确率较低,另外3种注记类型的识别准确率都较高。经多次实验发现,错分的山峰注记往往被识别为地名注记,相比其他类型注记,这两类注记的字色、字形更为相似。将各注记类型准确率按各自测试集中数据数量进行加权求平均,得到全部测试集的识别准确率为94.871%。使用TensorBoard工具可视化训练过程。准确率和学习率变化曲线如图 5所示,交叉熵和损失函数变化曲线如图 6所示。

      图  5  混合训练准确率和学习率变化曲线

      Figure 5.  Accuracy Rate Curve and Learning Rate Curve of Mixed Training

      图  6  混合训练交叉熵和损失函数值变化趋势

      Figure 6.  Cross Entropy Curve and Loss Function Curve of Mixed Training

      加入正则化的损失函数和交叉熵一样,可以迅速达到收敛,卷积神经网络的过拟合风险较小。第1、3卷积层偏置项和权重的分布以及均值和方差的变化见图 7图 10

      图  7  第1层卷积层偏置项和权重的分布图

      Figure 7.  Distribution Maps of the Bias Term and Weight in the First Convolutional Layer

      图  8  第1层卷积层偏置项和权重的均值和方差变化曲线

      Figure 8.  Change Curves of the Mean Value and Variance of the Bias Term and Weight in the First Convolutional Layer

      图  9  第3层卷积层偏置项和权重的分布图

      Figure 9.  Distribution Maps of the Bias Term and Weight in the Third Convolutional Layer

      图  10  第3层卷积层偏置项和权重的均值和方差变化曲线

      Figure 10.  Change Curves of the Mean Value and Variance of the Bias Term and Weight in the Third Convolutional Layer

    • 针对5部地图集的5份注记数据集分别构建和训练5个图 4结构的卷积神经网络模型,将这5个模型同时用于测试集的识别,用投票法来确定最终的识别结果。将《福建省地图集》 《沈阳市行政区域界线详图集》 《浙江省行政区划图集》 《湖北省地图集》 《山西省地图集》这5部地图集的5份注记数据集训练出的5个卷积神经网络模型对各自对应的测试集进行分类,计算其准确率分别为98.214%、97.959%、94.643%、96.429%、98.214%。使用TensorBoard对这5个模型训练过程进行可视化。5个模型训练过程中的准确率、学习率和交叉熵、损失函数的变化趋势图都大致相似,本文以《福建省地图集》数据集对应模型的变化趋势图进行展示,如图 11图 12所示。

      图  11  分开训练准确率和学习率变化曲线

      Figure 11.  Accuracy Rate Curve and Learning Rate Curve of Separate Training

      图  12  分开训练交叉熵和损失函数值变化趋势

      Figure 12.  Cross Entropy Curve and Loss Function Curve of Separate Training

      将5个模型横向叠加使用投票法对测试数据进行分类,得到山峰注记、地名注记、区域注记和水系注记这4类注记测试集的识别准确率分别为84.127%、97.143%、91.429%、98.571%,其中山峰注记类别的识别准确率较低,会被错分为地名注记。加权求平均后,得到全部测试集分类的准确率为93.040%。

    • 本文基于卷积神经网络模型采用混合训练和分开训练两种策略方法进行地图名称注记类别识别,其测试集识别的准确率分别为94.871%和93.040%,识别精度较高,且实验中输出的预测结果数据与标注数据是精准匹配的,因此输出的结果准确率是正确的可被接受的衡量指标,表明识别效果较好,体现出卷积神经网络模型对图片中不同位置、大小、光线等内容识别的不变性,在图像分类问题中具有卓越表现。虽然仍然有错分的可能,但该结果对于在深度学习中识别地图要素类别的可能应用已经较为充分,通过样本集数量的不断扩大及模型复杂程度的适当增加,可以进一步提高分类的精度,这也是后续研究需要努力的方向。

      比较实验结果,混合训练对应模型的效果更好。从理论原理角度分析,混合训练让模型学习到各类型的注记,或许学习过程中会存在一些冲突问题,但这个模型“见多”之后就更有可能“识广”;分开训练每个模型都只学习了其中一部分,那么对于某一个部分的样本,即使学习过这部分的神经网络模型全部识别正确,但没学习过这一部分的其他模型也有可能全部识别错误,从而导致使用投票法也仍然无法得到正确的识别结果。例如本文实验中,山峰注记在《沈阳市行政区域界线详图集》地图集中的字色是红色的,而在其他地图集中字色都是黑色的,那么在分开训练方法中,没有“见过”红色山峰注记的剩下4部地图集数据集对应的模型就很有可能将红色的山峰注记错分,实验证明确实如此。模型分开训练方法在测试集上识别时,测试集中的红色山峰注记大部分都被错分了,但在模型混合训练进行识别时,则没有出现这样的问题。因此,两种策略方法中,选择混合训练的方法效果更好。

      本文使用卷积神经网络对多部地图集中的名称注记实现了智能分类,其分类结果有以下3个方面的意义:

      1)机器读图的研究可以本次实验的智能分类结果作为继续前进的基础,在计算机对地图中名称注记完成分类的基础上,可以对计算机辨别地图中的要素类别进行研究,参考要素周围名称注记的类别可能在一定程度上提高机器对地图要素进行分类的准确度,但从辨认注记到读懂地图间仍有较大距离,需要进一步研究。

      2)卷积神经网络对地图名称注记的分类结果对制图过程中名称注记表现形式的设计具有一定的参考意义。一方面,针对模型难以分辨的名称注记类别在设计中可考虑适当增大它们在表现形式的差异性,以增强地图的易读性;另一方面,对于类别信息中可能含有机密信息的名称注记,可根据深度学习模型的智能分类表现设计其表现形式,增大机器对其辨别的难度。

      3)卷积神经网络在对地图名称注记分类中获取了名称注记的大量特征点,未来将对这些特征点的应用进行研究,使计算机可将字体渲染为特定种类的名称注记表现形式,为利用人工智能简化制图过程提供可能。

参考文献 (24)

目录

    /

    返回文章
    返回