留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

栅格地图注记一致性探测与度量

沈意浪 艾廷华

沈意浪, 艾廷华. 栅格地图注记一致性探测与度量[J]. 武汉大学学报 ● 信息科学版, 2017, 42(6): 737-743. doi: 10.13203/j.whugis20150549
引用本文: 沈意浪, 艾廷华. 栅格地图注记一致性探测与度量[J]. 武汉大学学报 ● 信息科学版, 2017, 42(6): 737-743. doi: 10.13203/j.whugis20150549
SHEN Yilang, AI Tinghua. Consistency Detecting and Measuring of Raster Map Annotations[J]. Geomatics and Information Science of Wuhan University, 2017, 42(6): 737-743. doi: 10.13203/j.whugis20150549
Citation: SHEN Yilang, AI Tinghua. Consistency Detecting and Measuring of Raster Map Annotations[J]. Geomatics and Information Science of Wuhan University, 2017, 42(6): 737-743. doi: 10.13203/j.whugis20150549

栅格地图注记一致性探测与度量

doi: 10.13203/j.whugis20150549
基金项目: 

国家高技术研究发展计划 2012AA12A404

详细信息

Consistency Detecting and Measuring of Raster Map Annotations

Funds: 

The National High Technology Research and Development Program of China 2012AA12A404

More Information
图(11) / 表(1)
计量
  • 文章访问数:  2758
  • HTML全文浏览量:  45
  • PDF下载量:  415
  • 被引次数: 0
出版历程
  • 收稿日期:  2015-09-06
  • 刊出日期:  2017-06-05

栅格地图注记一致性探测与度量

doi: 10.13203/j.whugis20150549
    基金项目:

    国家高技术研究发展计划 2012AA12A404

    作者简介:

    沈意浪, 博士生, 主要从事空间数据质量研究。yilangshen@whu.edu.cn

    通讯作者: 艾廷华, 博士, 教授。E-mail:tinghua_ai@163.net
  • 中图分类号: P283

摘要: 一致性是空间数据质量的重要标准。空间数据的一致性探测对于多源、多尺度空间数据的融合具有重要意义。注记是地图的重要组成元素,包含了丰富的地理位置信息。由于制图综合、资料来源等原因,使得多个尺度的注记当中存在大量不一致现象。尝试从栅格地图中进行多尺度注记一致性的探测。在已有的空间目标变化类型基础上,提出了地图注记的12种基本变化类型,对地图注记在不同表达之间的一致程度进行量化表达,并提出了针对栅格地图注记一致性探测的方法。利用该方法对瓦片地图上的不同尺度的注记进行一致性探测与度量,证明了该方法的合理性和有效性。

English Abstract

沈意浪, 艾廷华. 栅格地图注记一致性探测与度量[J]. 武汉大学学报 ● 信息科学版, 2017, 42(6): 737-743. doi: 10.13203/j.whugis20150549
引用本文: 沈意浪, 艾廷华. 栅格地图注记一致性探测与度量[J]. 武汉大学学报 ● 信息科学版, 2017, 42(6): 737-743. doi: 10.13203/j.whugis20150549
SHEN Yilang, AI Tinghua. Consistency Detecting and Measuring of Raster Map Annotations[J]. Geomatics and Information Science of Wuhan University, 2017, 42(6): 737-743. doi: 10.13203/j.whugis20150549
Citation: SHEN Yilang, AI Tinghua. Consistency Detecting and Measuring of Raster Map Annotations[J]. Geomatics and Information Science of Wuhan University, 2017, 42(6): 737-743. doi: 10.13203/j.whugis20150549
  • 地理空间数据信息的现势性是GIS的灵魂,它远远高于几何精确性[1]。一致性探测是保持空间数据现势性的重要途径。准确高效的变化检测对于研究空间数据库更新、全球变化、应急测绘保障等具有重要意义[2],是促进地理信息共享、服务和应用的重要手段[3]。注记作为地理要素的属性信息,是地图的重要组成部分。由于资料来源不同、时间差异、制图综合等多方面原因使得地图中注记产生大量不一致现象。如图 1所示,相同S区域在不同尺度下出现注记不一致情况。

    图  1  注记不一致

    Figure 1.  Inconsistency of Annotation

    现有文献针对注记一致性研究较少,且主要集中在属性匹配算法的研究上,文献[4]结合BPM-BM的基本原理与地名数据匹配基本理论,建立了一种新的地名快速匹配方法;文献[5]提出了基于模糊聚类的属性匹配算法,以等价闭包法对相似属性进行模糊聚类;文献[6]面向规范地名提出一种综合了地名专名字面相似度和地名通名语义相似度两种因素的复合相似度匹配算法模型。

    空间数据变化检测主要采用矢量数据和栅格数据(以遥感影像为代表)。矢量数据的注记以文本形式存储在数据库中,主要通过文本信息比较进行变化检测;而栅格数据中,通过遥感影像不能进行注记信息的变化检测。针对这一问题,本文尝试从另一种栅格数据(地图瓦片)中探测地图注记的变化, 提出了地图注记的12种基本变化类型,建立了栅格地图注记一致程度的量化表达模型,最后对百度地图不同级别瓦片上的注记进行了一致性探测与度量,证明了本文方法的合理性和有效性。

    对地理空间实体变化的认知是检测地图数据变化信息的前提。空间变化的分类方法有很多种,Claramunt[7]等认为单个实体的演变可以分为出现、消失、稳定、移动、旋转、扩大、缩小、变形8大类型。注记是地理空间数据的属性信息,本文在总结已有的空间目标变化研究的基础上,结合注记的基本特征[8],将地图注记的基本变化类型分为出现、消失、名称变化、移动、旋转、缩放、形变、颜色变化、字号变化、字向变化、字形变化、特殊变化12种(表 1)。地理实体的注记在不同表达之间产生的变化可能是这12种基本变化,也可能是它们的组合,不同基本变化的组合称为复合变化。

    表 1  注记变化数量

    Table 1.  Total Quantity of Annotation Change

    类型出现消失移动旋转缩放形变名称颜色字号字向字形
    数量1201214200216020
    • 一致性是指同一现象或同类现象在不同表达之间的一致程度[9]。地图注记的变化会使得注记在不同表达之间产生差异,为了对不同表达之间的一致程度进行度量,针对上述12种地图注记基本变化类型,本文将栅格地图注记变化前后的一致程度定义为0~1之间,0代表完全不一致,1代表完全一致。不同的栅格地图注记基本变化类型的一致性程度度量方法如下。

      1) 出现与消失。注记在无和有之间的转化,两者变化前后其一致度分别定义为:

      $${{S}_{\text{appear}}}={{S}_{\text{disappear}}}=0$$ (1)

      2) 名称变化。属性值之间的相似性度量方法主要有编辑距离法、顾及通名语义算法[7]、基于本体的语义算法[10]等。本文基于编辑距离法对名称变化一致性进行度量,名称变化引起的差异利用两者的编辑距离表示,即ΔSname=de(m, n)。名称变化前后一致度计算方法如式(2):

      $${{S}_{\text{name}}}=1-\frac{{{d}_{e}}\left( m,\text{ }n \right)}{{{d}_{e\text{max}}}\left( m,\text{ }n \right)}$$ (2)

      图  2  地图注记基本变化类型

      Figure 2.  Types of Map Annotation Change

      式中,de(m, n)表示注记mn两者的编辑距离; demax(m, n)表示注记mn两者的最大编辑距离。

      3) 移动。移动变化前后的差异利用注记之间的欧氏距离度量,即ΔSmove=dis(m, n),一个注记的坐标位置确定方法为:若注记为奇数个字符,则注记的位置为该注记最中间的字符中心点所在坐标;若注记为偶数个字符,则注记的位置为该注记最中间的两个字符中心点连线的中点所在坐标。移动前后一致度计算方法为:

      $${{S}_{\text{move}}}=1-\frac{\text{dis}\left( m,n \right)}{\text{di}{{\text{s}}_{\text{max}}}\left( m,n \right)}$$ (3)

      式中,dis(m, n)表示注记mn两者的欧氏距离; dismax(m, n)表示注记mn两者的最大欧氏距离。

      4) 旋转。注记的方向使用字符中心点连线走向表示,如图 3所示,按照顺序给注记连线的每条线段一个方向,根据坐标几何学,一组矢量的方向均值是指将所有矢量按照平行四边形法则进行相加而得到的结果矢量的方向。注记方向就用这个方向均值表示。

      图  3  注记方向均值

      Figure 3.  Mean Direction of Annotation

      注记按照顺时针或者逆时针方向进行旋转后,注记的方向角θ会发生变化,旋转变化引起的差异用旋转前后的方向角度差来表示,即ΔSrotationθ=|θmθn|。旋转一致度计算方法为:

      $${{S}_{\text{rotation}}}=\left\{ \begin{array}{*{35}{l}} 1-\frac{\Delta \theta }{180},&0\le \Delta \theta \le 180 \\ \frac{\Delta \theta -180}{180},&180<\Delta \theta \le 360 \\ \end{array} \right.$$ (4)

      式中,θmθn为注记mn的方向角。

      5) 缩放。缩放过程钟注记字符中心点的连线长度会发生变化,即ΔSzoom=|lmln|,缩放一致度计算方法为:

      $${{S}_{\text{zoom}}}=1-\frac{\left| {{l}_{m}}-{{l}_{n}} \right|}{{{l}_{\text{max}}}\left( m,n \right)}$$ (5)

      式中,lmln表示注记mn两者的字符中心点连线的长度;lmax(m, n)表示注记mn两者中的较长连线的长度。

      6) 形变。利用注记的各个字符中心点依次连线所构成的线段来代表注记的形态,求形变前后的一致程度即可认为是求两个线要素之间的形状相似程度。对线状要素进行形状相似性度量的方法有夹角链码法[11]、基于傅里叶形状描述算法[12]等。受基于旋转函数的面目标形状描述方法[13]的启发,利用基于旋转函数距离的方法对注记形变前后的相似度进行计算。

      基于旋转函数的线要素形状描述方法如图 4所示,设p0pn为线要素A的顶点,取初始顶点p0为起始点,θ1表示起始边p0p1的方位角,ωk(1≤kn)表示点pk的旋转角,线要素A的旋转角度函数表示为T(l),其中x轴表示点p0沿着线要素周长到线要素上点pk的归一化距离lky轴表示各点沿着周边的转角(顺时针为正方向)的累积和θk=θk-1+ωk(1≤kn)。

      $${{l}_{k}}=\sum\limits_{i=1}^{k}{{{l}_{i}}/L}$$ (6)

      图  4  旋转角度函数

      Figure 4.  Rotation Angle Function

      线要素mn的旋转函数距离计算方法为:

      $$\begin{align} &{{d}_{\text{RFD}}}\left( m,\text{ }n \right)=\|T\left( m \right)-T\left( n \right){{\|}_{p}}~= \\ &\quad \quad \quad \quad \quad {{\left( \int{{{\left| T\left( m \right)-T\left( n \right) \right|}^{p}}\text{d}l} \right)}^{\frac{1}{p}}} \\ \end{align}$$ (7)

      式中,函数‖·‖p表示Lp范式,p=2。形变引起的差异利用旋转函数距离表示,即ΔSshape=dRFD(m, n)。形状相似度与旋转函数的距离成反比,所以注记形变一致度的定义为:

      $${{S}_{\text{shape}}}=1-\frac{{{d}_{\text{RFD}}}\left( m,\text{ }n \right)}{\text{max}({{m}_{m,\text{ }n}})-\text{min}({{m}_{m,\text{ }n}})}$$ (8)

      式中,max(mm, n)和min(mm, n)表示mn的最大累积旋转角和最小累积旋转角。

      7) 颜色变化。常见的颜色模型包括RGB、CMYK、HSV、HIS等,不同的颜色模型可以通过一定的数学关系互相转换。在三基色RGB模型下,两种颜色的差异程度可以通过颜色距离[14]来描述:

      $$\begin{align} &C\left( m,\text{ }n \right)=\left[ {{w}_{r}}{{\left( {{r}_{m}}-{{r}_{n}} \right)}^{2}}+{{w}_{g}}{{\left( {{g}_{m}}-{{g}_{n}} \right)}^{2}}+ \right. \\ &\quad {{\left. \quad \quad \quad \quad {{w}_{b}}{{\left( {{b}_{m}}-{{b}_{n}} \right)}^{2}} \right]}^{\frac{1}{2}}} \\ \end{align}$$ (9)

      因此,颜色变化引起的差异可以表示为ΔScolour=C(m, n)。颜色变化的一致度计算方法为:

      $${{S}_{\text{colour}}}=1-\frac{C\left( m,\text{ }n \right)}{{{C}_{\text{max}}}\left( m,\text{ }n \right)}$$ (10)

      式中,rmgmbm表示注记m的RGB颜色值; rngnbn表示注记n的RGB颜色值。wrwgwb表示RGB颜色加权值,C(m, n)表示注记mn两者的颜色距离,Cmax(m, n)表示注记mn两者的最大颜色距离。实际计算中将出现频率最高的颜色值作为该注记的颜色值。

      8) 字号变化。字号变化引起的差异可以表示为ΔSsize=|pmpn|。其一致度计算方法为:

      $${{S}_{\text{size}}}=1-\frac{\left| {{p}_{m}}-{{p}_{n}} \right|}{{{p}_{\text{max}}}\left( m,\text{ }n \right)}$$ (11)

      式中,pmpn表示注记mn两者的字号;pmax(m, n)表示注记mn两者的最大字号差,注记mn的字号大小为所有字符大小的均值。

      9) 字向变化。按照顺时针或者逆时针方向旋转θ°,字向变化引起的差异ΔSdirectθ=|θmθn|。字向一致度计算方法为:

      $${{S}_{\text{direct}}}=\left\{ \begin{array}{*{35}{l}} 1-\frac{\Delta \theta }{180},&0\le \Delta \theta \le 180 \\ \frac{\Delta \theta -180}{180},&180<\Delta \theta \le 360 \\ \end{array} \right.$$ (12)

      式中,θmθn表示注记mn两者的方向角;注记mn的方向角为注记中所有字符的方向均值。

      10) 字形变化。汉字具有多种字体变化,本文通过骨架化汉字后提取其方向特征,并用矩阵的方式进行特征表达,最后通过矩阵相似度[15]来度量字形变化前后的一致程度。

      汉字的方向可以归为“横”、“竖”、“撇”、“捺”四种笔画[16],设p是黑像素点,其八邻域如图 5所示,则基本的笔画可描述如下:如果p1或p5为黑像素点,则p属于横笔画;如果p2或p6为黑像素点,则p属于撇笔画;如果p3或p7为黑像素点,则p属于竖笔画;如果p4或p8为黑像素点,则p属于捺笔画。将汉字均匀划分为t×t个网格,如图 6所示,取t=2,每一个网格中的汉字特征用一个向量L来表示,L=(H, S, P, N),HSPN分别是该网格中“横”、“竖”、“撇”、“捺”的笔画数。将所有网格的向量的数值按照顺利进行排列,整个汉字就可以用一个4×4的特征矩阵表示。

      图  5  汉字笔画

      Figure 5.  Text Strokes

      图  6  网格划分

      Figure 6.  Mesh Dividing

      注记中每个字符的特征矩阵之间的差值代表着字符之间的形变差异,若对应元素相减为负,则取绝对值。注记字形变化引起的差异利用各个字符的差异均值表示:

      $$\Delta {{\mathit{\boldsymbol{S}}}_{\rm{font}}}=\frac{({{\mathit{\boldsymbol{A}}}_{1}}-{{\mathit{\boldsymbol{B}}}_{1}})+\cdots +({{\mathit{\boldsymbol{A}}}_{n}}-{{\mathit{\boldsymbol{B}}}_{n}})}{n}$$ (13)

      式中,An代表注记A中各个字符的特征矩阵;Bn代表注记B中各个对应字符的特征矩阵;n为注记中字符的个数。

      矩阵相似度用来衡量两个矩阵之间的相似程度。设Cm×n表示m×n矩阵全体,若A, BCm×n,则矩阵的内积定义为:

      $$\left\langle \mathit{\boldsymbol{A}},\mathit{\boldsymbol{B}} \right\rangle =\rm{tr}({{\mathit{\boldsymbol{B}}}^{\rm{T}}}\mathit{\boldsymbol{A}})$$ (14)

      式中,tr表示矩阵主对角线之和。类似于向量的内积,矩阵的内积表示两个矩阵对应位置元素的乘积的累加和。由矩阵内积可导出其范数为:

      $$\|\mathit{\boldsymbol{A}}\|=\sqrt{\left\langle \mathit{\boldsymbol{A}},\mathit{\boldsymbol{B}} \right\rangle }$$ (15)

      此时,矩阵的相似度r定义为:

      $$r=\rm{cos}\theta =\frac{\left\langle \mathit{\boldsymbol{A}},\mathit{\boldsymbol{B}} \right\rangle }{\|\mathit{\boldsymbol{A}}\|\cdot \|\mathit{\boldsymbol{B}}\|}$$ (16)

      式中,为两个矩阵之间的夹角,r的值越大,两个矩阵越相似,当r=1时,表示两个矩阵完全相似。根据矩阵相似度的定义,注记中每个字符的字形变化前后的一致度就利用各个字符的特征矩阵之间的相似度来表示,如下式所示:

      $${{S}_{\rm{font}}}=({{\mathit{\boldsymbol{T}}}_{1}}+{{\mathit{\boldsymbol{T}}}_{2}}+\cdots +{{\mathit{\boldsymbol{T}}}_{n}})/n$$ (17)
      $${{\mathit{\boldsymbol{T}}}_{n}}=\left| \frac{\left\langle {{\mathit{\boldsymbol{A}}}_{n}},{{\mathit{\boldsymbol{B}}}_{n}} \right\rangle }{\|{{\mathit{\boldsymbol{A}}}_{n}}\|\cdot \|{{\mathit{\boldsymbol{B}}}_{n}}\|} \right|$$ (18)

      式中,An表示注记A中各个字符的特征矩阵,Bn表示注记B中对应各个字符的特征矩阵,n为注记中字符的个数。

      11) 特殊变化。注记特殊变化是一种复杂多因素的变化,本文不对其一致度进行讨论。

    • 变化检测是指对不同时期获得的地理实体或现象的状态进行比较分析,识别其差异的过程[17],对栅格地图注记变化检测的流程如图 7

      图  7  注记变化检测流程

      Figure 7.  Process of Annotation Change Detection

      首先,对同名注记目标对进行模式判别,若为m:0(m≥1) 模式,则为消失;若为0:m(m≥1) 模式,则为出现;若为1:1模式,则需要根据设定的度量指标和阈值逐步检测注记的语义变化(名称变化)、几何变化(移动、旋转、缩放、形变)、属性变化(颜色、字号、字向、字形)。若为m: n(m≥1, n≥1) 模式,且两者不同时为1,则首先对注记进行模式分解,当m=n时,将两个相同地物的多个注记逐一按照距离进行匹配,则可分解为多个1:1模式;当mn时,同样按照距离进行匹配,匹配成功的则视为1:1模式,匹配不成功则视为出现或者消失。最后对其进行一致性度量。

    • 本文用于探测注记一致性的实验数据来自百度地图,如图 8所示。选取第14级别瓦片编号范围为3 061≤x≤3 064,621≤y≤624的16张瓦片为实验区域。第14级别瓦片中包含注记79个,其中水平注记74个,倾斜注记5个;第15级别瓦片中包含注记191个,其中水平注记179个,倾斜注记12个。实验中为了更好地提取注记,利用了百度地图的个性化配置,探测流程包括注记提取与识别、注记匹配、注记变化检测与一致性分析。

      图  8  实验区域

      Figure 8.  Experimental Area

      1) 注记提取与识别。首先提取灰度值较低的像素,过滤掉尺寸较大的连通域,然后利用ABBYY FineReader对提取的注记进行分析和识别。如图 9所示,左侧为文本区域分析的结果,右侧为识别结果,去掉红色标记的置信度较低的非中文字符,从图 10中可知,红色标记的主要为注记旁边的点状符号,对于倾斜的注记,如图 11所示,需利用矢量化后的道路方向对其进行水平校正。

      图  9  变化检测与一致性度量

      Figure 9.  Change Detection and Consistency Measure

      图  10  文字识别

      Figure 10.  Character Recognition

      图  11  倾斜文字校正

      Figure 11.  Text Correction

      2) 注记匹配。根据注记的语义相似度和注记之间的距离进行同名目标对的匹配。确定汉字的坐标需要分析出组成该汉字的所有笔画,可参考文献[18]中的合并方法。

      3) 注记变化检测与一致性分析。对于同名注记目标对,探测过程如图 7所示。实验范围数据中共探测到200对注记同名目标对,其中有139对注记同名目标发生了168个变化。如图 9所示,将两个级别的注记进行叠加,其中红色部分为发生变化的注记。各类型变化前后的一致度按照§1.1提出的模型进行度量,变化数量如表 1所示。从表 1可知,出现次数最多,占到变化总量的71.4%,消失、移动、旋转、名称、颜色、字向变化占到变化总量的28.6%,而缩放、形变、字号变化、字形变化并未检测到。主要原因是:① 缩放和形变主要出现在弯曲注记中,弯曲注记识别是一个难点,实验区域也未出现弯曲注记;② 在百度地图中,相邻级别的注记在字号和字形上的变化也很少。整体而言,探测正确率高达92.5%,且注记识别正确率在很大程度上影响了探测正确率。

    • 本文针对地图注记要素,提出了其12种基本变化类型,对栅格地图注记变化前后的一致程度进行量化表达,提出了栅格地图注记变化检测的方法,并利用网络栅格地图数据进行地图注记的一致性探测。实验过程中,从瓦片识别同名注记目标对的正确率在一定程度上影响了注记一致性检测结果,因此,如何更准确地从瓦片地图中识别同名注记目标对,需要进一步研究。

参考文献 (18)

目录

    /

    返回文章
    返回