留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

面向地理实体的语义相似性度量方法及其在道路匹配中的应用

赵云鹏 孙群 刘新贵 程绵绵 俞童 李元復

赵云鹏, 孙群, 刘新贵, 程绵绵, 俞童, 李元復. 面向地理实体的语义相似性度量方法及其在道路匹配中的应用[J]. 武汉大学学报 ● 信息科学版, 2020, 45(5): 728-735. doi: 10.13203/j.whugis20190039
引用本文: 赵云鹏, 孙群, 刘新贵, 程绵绵, 俞童, 李元復. 面向地理实体的语义相似性度量方法及其在道路匹配中的应用[J]. 武汉大学学报 ● 信息科学版, 2020, 45(5): 728-735. doi: 10.13203/j.whugis20190039
ZHAO Yunpeng, SUN Qun, LIU Xingui, CHENG Mianmian, YU Tong, LI Yuanfu. Geographical Entity-Oriented Semantic Similarity Measurement Method and Its Application in Road Matching[J]. Geomatics and Information Science of Wuhan University, 2020, 45(5): 728-735. doi: 10.13203/j.whugis20190039
Citation: ZHAO Yunpeng, SUN Qun, LIU Xingui, CHENG Mianmian, YU Tong, LI Yuanfu. Geographical Entity-Oriented Semantic Similarity Measurement Method and Its Application in Road Matching[J]. Geomatics and Information Science of Wuhan University, 2020, 45(5): 728-735. doi: 10.13203/j.whugis20190039

面向地理实体的语义相似性度量方法及其在道路匹配中的应用

doi: 10.13203/j.whugis20190039
基金项目: 

国家自然科学基金 41571399

国家自然科学基金 41801313

详细信息
    作者简介:

    赵云鹏, 博士生, 主要从事多源矢量空间数据融合及地图制图研究。dptk_zyp@163.com

    通讯作者: 孙群, 博士, 教授。sunqun@371.net
  • 中图分类号: P208

Geographical Entity-Oriented Semantic Similarity Measurement Method and Its Application in Road Matching

Funds: 

The National Natural Science Foundation of China 41571399

The National Natural Science Foundation of China 41801313

More Information
    Author Bio:

    ZHAO Yunpeng, PhD candidate, majors in multi‐source vector spatial data fusion and mapping. E-mail:dptk_zyp@163.com

    Corresponding author: SUN Qun, PhD, professor. sunqun@371.net
图(4) / 表(5)
计量
  • 文章访问数:  1090
  • HTML全文浏览量:  190
  • PDF下载量:  102
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-01-22
  • 刊出日期:  2020-05-05

面向地理实体的语义相似性度量方法及其在道路匹配中的应用

doi: 10.13203/j.whugis20190039
    基金项目:

    国家自然科学基金 41571399

    国家自然科学基金 41801313

    作者简介:

    赵云鹏, 博士生, 主要从事多源矢量空间数据融合及地图制图研究。dptk_zyp@163.com

    通讯作者: 孙群, 博士, 教授。sunqun@371.net
  • 中图分类号: P208

摘要: 语义相似性度量是实现多源矢量空间数据集成与融合的关键技术。首先以地理实体为研究对象,从矢量空间数据表达视角对地理实体的语义信息进行分析与描述,提出基于多特征约束的语义相似性度量模型。然后该模型将地理要素分类关系作为控制条件提取目标实体集,在构建实体间语义特征对应关系的基础上引入属性特征熵的概念,计算不同特征的权重值,进而综合多特征相似性来度量地理实体的整体语义相似程度。最后将该模型应用到道路实体匹配实验中,通过计算实体之间的语义相似性实现匹配,验证了该模型的有效性。实验结果表明,基于多特征约束下的语义相似性度量模型能够合理计算地理实体的语义相似度,且提高了地理实体语义匹配效率。

English Abstract

赵云鹏, 孙群, 刘新贵, 程绵绵, 俞童, 李元復. 面向地理实体的语义相似性度量方法及其在道路匹配中的应用[J]. 武汉大学学报 ● 信息科学版, 2020, 45(5): 728-735. doi: 10.13203/j.whugis20190039
引用本文: 赵云鹏, 孙群, 刘新贵, 程绵绵, 俞童, 李元復. 面向地理实体的语义相似性度量方法及其在道路匹配中的应用[J]. 武汉大学学报 ● 信息科学版, 2020, 45(5): 728-735. doi: 10.13203/j.whugis20190039
ZHAO Yunpeng, SUN Qun, LIU Xingui, CHENG Mianmian, YU Tong, LI Yuanfu. Geographical Entity-Oriented Semantic Similarity Measurement Method and Its Application in Road Matching[J]. Geomatics and Information Science of Wuhan University, 2020, 45(5): 728-735. doi: 10.13203/j.whugis20190039
Citation: ZHAO Yunpeng, SUN Qun, LIU Xingui, CHENG Mianmian, YU Tong, LI Yuanfu. Geographical Entity-Oriented Semantic Similarity Measurement Method and Its Application in Road Matching[J]. Geomatics and Information Science of Wuhan University, 2020, 45(5): 728-735. doi: 10.13203/j.whugis20190039
  • 目前,地理空间数据资源呈现出多源化、异构化、异质化等特点,如何合理利用空间数据特征,建立同名地理实体关联、消除数据不一致性,实现多源矢量地理空间数据的融合与更新显得尤为重要[1]。地理对象的客观存在决定了不同来源的矢量空间数据对地理实体的表达具有相似性,利用相似性度量技术解决地理信息领域问题一直备受关注[2]。现阶段,关于空间数据的几何相似性度量研究较多,成果也较为丰富[3-5],然而空间数据的语义模糊性、多义性、不易量化等特征给语义相似性度量模型的构建提出了挑战,当前的语义相似性研究主要集中在度量地理概念或者地物分类信息的语义相似性[6-10],少有关于地理实体语义相似性度量的研究。

    语义相似性度量是描述、评价不同概念之间含义相似程度的重要方法[7],大致可以分为三类:(1)特征集合法,通过提取概念或者对象的性质、作用、属性等,建立特征综合评价模型来判断语义相似度,如特征模型、对齐模型等,但是特征集建立的自动化能力较低,且需要保证特征权重设置的合理性;(2)语义关系法,通过构建概念间的语义关系网络,利用概念在语义知识结构中的位置或层次来计算语义相似性,如概念层次模型、语义距离模型等,该方法依赖于事先定义的语义关系结构;(3)信息统计法,利用大规模语料中概念上、下文关系的统计信息来判断概念的语义相似性,如向量空间模型等,该方法的计算过程较为复杂,且受语料库的质量影响较大[11-14]

    本文将多源矢量地理空间数据表达的地理实体作为研究对象,以地理要素分类语义关系作为控制条件,建立一种基于多特征约束的地理实体语义相似性度量模型。该模型能够充分利用矢量地理空间数据中地理实体的语义描述信息和特征统计信息,综合多特征相似性值来计算地理实体的整体语义相似度,具有一定科学性和合理性。

    • 地理实体是现实世界中独立存在,能够唯一标识的自然或人工地物,在矢量地理空间数据中,被表达为与二维属性表中的一组属性字段相关联的点、线、面等几何形态,这是地理实体的数字形式。对地理实体的描述往往建立在特定的语义体系之上,即使在同一国家,不同部门生产的矢量地理空间数据所采用的语义划分方法也不尽相同,它们在要素分类分级、属性字段设计等方面均存在明显差异[15]。因此,需要定义一个统一的地理实体语义结构模型,来准确描述矢量空间数据中地理实体的语义信息,建立不同来源矢量数据之间的语义关联。

      本文将地理实体的语义结构模型定义为$G(C, O, P, R$),其中,$C$表示地物类概念集;$O$表示地理实体集;表示$P$地物属性特征集;$R$表示关系集,包括$R_{C\times{}C}$、$R_{C\times{}O}$和,$R_{O\times{}P}$分别表示$C$、$O$、$P$三者之间的二元关系,若$c_1$、$c_2\in{}C$,$(c_1, c_2)\in{}R_{C\times{}C}$,则称地物类概念$c_1$与地物类概念$c_2$存在语义关系,记为$R(c_1, c_2)$;若$c\in{}C$,$o\in{}O$,$(c, o)\in{}R_{C\times{}O}$,则称地理实体$o$是地物类概念$c$的实例化,记为$R(c, o)$;若$o\in{}O$,$p\in{}P$,$(o, p)\in{}R_{O\times{}P}$,则称地理实体$o$具有属性特征$p$,记为$R(o, p)$。其中,$R(c, o)$对$R(o, p)$具有约束关系。将地理实体的语义结构以知识图谱的形式进行表达(以国标公路为例),如图 1所示。

      图  1  地理实体的语义结构模型(以公路为例)

      Figure 1.  Structure Model of Geographical Entities (Taking Highway as an Example)

      根据地理实体的语义结构模型,在计算地理实体的语义相似性时存在以下规则:(1)约束规则。地理要素分类是地理实体属性特征描述的基础,确定地物所属类别就能够约束该地物类别对应的属性特征项集合,因此可以根据分类编码信息确定地理实体的全部属性特征项。(2)强弱规则。属性特征项对于地理实体的区分作用存在强弱关系,不同地理实体的一些属性特征项取值差异较大,个性化明显,如名称等,可以称其为强约束型属性特征;而有些属性特征项是从固定有限的属性特征值集合中选取,如道路技术等级等,被称为弱约束型属性特征,可以根据取值分布特征来确定不同属性特征项的权重。(3)最小类匹配规则。最小类别中地理实体的属性特征已得到完全抽取和细化,可以选用的语义特征最为丰富,因此度量地理实体语义相似性时,至少需要保证匹配的一方是最小类别的地理实体集合。不同矢量地理空间数据的分类细化程度不同,有时需要结合分类编码与分化程度较低类的属性项,建立地理要素类别间的对应关系。

    • 地理实体的语义信息以二维属性表的形式存储,属性表的每一行数据为一个记录,利用多个属性字段描述一个地理实体的特性,以区别同一类别下的其他地理实体。因此,地理实体的语义相似性度量依赖于各个属性特征项的相似度计算,需要综合地理实体属性特征项的相似性表达地理实体的整体语义相似度。

      设$G(C, O, P, R)$、$G'(C', O', P', R')$为不同矢量空间数据集的地理实体语义描述结构,$O$、是在$O'$不同语义体系下的同一地理实体,它们之间存在语义度量关系,如果满$S:O\times{}O'\rightarrow{}[0, 1]$足条件$S(O, O)=S(O', O')=1$,且$S(O, O')=S(O', O)$,则称$S(O, O')$为$O$与$O'$的语义相似度,为语义相似度函数。本文将地理实体$S( )$语义相似性度量函数定义为:

      $$S_{{\rm Mix}}(O, O')=\sum\limits_{i=1}^n[w_p\cdot{}S_T(p_i, p_i')]$$ (1)

      式中,$p_i$和$p_i'$表示不同来源的两组矢量数据中相同地理实体类所对应的属性特征项;wp表示对应属性特征项的权重值;$n$为对应属性特征项的组数;$S_T$()表示不同类型属性特征项的相似性度量算法。

    • 数据分类分层是矢量地理空间数据抽象组织的重要方式,具有相同属性特征描述的地理实体经过要素分类被划分到同一实体集合中,并表达在同一图层上,以地理要素分类编码作为地物类别的关键性约束语义信息。因此可以在建立地理实体所属地理要素类之间对应关系的基础上,将要素编码信息作为主要控制条件,筛选出语义相似度量的候选实体集。在建立地理要素类对应关系时,需引入专家知识,重点分析地物类概念的内在含义和分类层次结构,通过语义描述的逻辑推理确定概念间的关系,最终形成地物类概念集中最小类概念的语义匹配映射,建立地理要素分类编码的对应关系。

    • 建立地物类概念集CC'中最小类概念的对应关系后,根据R(c, o)对R(o, p)的约束规则,以数据字典为参考,获取对应地物类别下地理实体具有的所有属性特征项,并筛选出可以应用于语义相似性度量的属性特征。经过专家分析属性特征的定义、特征描述以及取值等,建立属性特征项之间的对应关系,即实现地物属性特征集PP'在类别约束下的属性特征项一一对应,并根据属性类型采用相应的语义相似性度量规则。

    • 根据属性强弱规则,不同的属性特征项对于地理实体的约束能力各不同,需要根据其对地理实体的区分能力定义不同的权重。熵值法是常用的客观赋权方法,可以直接从数据本身获取权重值,客观且容易量化[16],属性特征熵的基本思想是利用属性特征取值集合的复杂程度,反映该属性特征项对于评价地理实体相似性的重要程度,属性特征项的熵值越大,该属性特征的取值差异就越大,对于地理实体的区分能力也越大,相应的权重值也就越大。参照香农(Shannon)定义的信息熵公式,本文将属性特征项p的熵值计算公式定义为:

      $$\varPhi{}(p)=-\sum{}[\frac{n_{v_i}}{N_V}\cdot{}log_2(\frac{n_{v_i}}{N_V})]$$ (2)

      式中,$V$为属性特征项$p$的取值集合,$v_i\in{}V$;为所$N_V$有属性取值的个数;为属性取$n_{v_i}$值为的个数。下一$v_i$步,需要对属性特征熵值进行归一化处理,考虑到属性特征项之间可能存在权重差异较大的问题,在归一化处理前需要对属性特征熵值进行开平方。本文将属性特征项权重Wpi的计算公式定义为:

      $$W_{p_i}=\sqrt{\varPhi{}(p)}/\sum\limits_{i=1}^n\sqrt{\varPhi{}(p)}$$ (3)

      式中,n为属性特征项的个数。

    • 根据属性特征项的数据类型和描述作用不同,可以将其分为数值型、指代型、区间型、组合型、枚举型等[7, 17],不同属性特征项的语义相似性度量算法定义如下。

      1)数值型属性项。数值差距越大,语义差异也就越大,本文采用属性值的相对距离来评价其属性相似度,计算公式为:

      $$S_N(p_i, p_i')=1-\frac{\left\vert{}p_i-p_i'\right\vert{}}{{\rm Max}(p_i, p_i')}$$ (4)

      式中,Max()为取最大值函数。

      2)指代型属性项。指代型属性项是指采用抽象概念代表某一具体事物,该属性特征项指代标识作用明显,属性值之间不存在较大的语义关联,例如名称、编号等,本文根据字符类型采用不同方法来度量。

      (1)英文字符型。当属性值是英文时,可以将其看作一个英文字符串,本文定义其相似性为最大公共子串长度的2倍与两字符串长度和之间的比值,计算公式为:

      $$S_E(p_i, p_i')= \frac{2L_{{\rm Common}\left(p_i, p_i'\right)}}{L_{p_i}+L_{p_i'}}$$ (5)

      式中,$L_{p_i}$、$L_{p_i'}$分别表示$p_i$、取值$p_i'$的字符串长度; 表示二者$L_{Common(p_i, p_i')}$取值的最大公共子串长度。

      (2)中文字符型。当属性值是中文字符串时,本文采用编辑距离来度量其属性相似性,计算公式为:

      $$S_C(p_i, p_i')=1-\frac{{\rm Distance}(p_i, p_i')}{{\rm Max}(L_{p_i}, L_{p_i'})}$$ (6)

      式中,${\rm Distance}(p_i, p_i')$表示$p_i$、$p_i'$取值的编辑距离; 表示${\rm Max}(L_{p_i}, L_{p_i'})$二者取值的最长字符串长度。

      3)区间型属性项。区间型属性项的取值为区间值,重叠部分越大,属性值表达的语义也就越接近,本文将取值的交区间与并区间的比值作为其相似性值,计算公式为:

      $$S_R(p_i, p_i')=\frac{R_{p_i}\bigcap{}R_{p_i'}}{R_{p_i}\bigcup{}R_{p_i'}}$$ (7)

      式中,$R_{p_i}\bigcap{}R_{p_i'}$表示$p_i$、$p_i'$取值的交区间; 表示$R_{p_i}\bigcup{}R_{p_i'}$二者取值的并区间。

      4)组合型属性项。组合型属性项的取值是实体公共属性特征值集合的子集。特征取值集合的交集大小反映了该类属性项的相似程度,计算公式为:

      $$S_S(p_i, p_i')=\frac{S_{p_i}\bigcap{}S_{p_i'}}{S_{p_i}\bigcup{}S_{p_i'}}$$ (8)

      式中,$S_{p_i}\bigcap{}S_{p_i'}$表示$p_i$、$p_i'$取值的交集; 表示$S_{p_i}\bigcup{}S_{p_i'}$二者取值的并集。

      5)枚举型属性项。如果地理实体某一属性项的取值是可以枚举罗列的几个固定值,并且这些值可以反映属性特征的等级差异,则称该属性项为枚举型属性。根据属性取值的等级差异,本文采用排序法对属性值进行编号,通过编号距离来描述枚举型属性值的相似性[7],计算公式如下:

      $$S_G(p_i, p_i')=1-\frac{\left\vert{}N_{p_i}-N_{p_i'}\right\vert{}}{N}$$ (9)

      式中,$N_{p_i}$和$N_{p_i'}$分别表示$p_i$、取值$p_i'$的编号; N为最大编号值。

    • 在矢量地理数据中,公路图层包含了国道、省道、县道等多种类别的线状道路实体,其语义信息采集相对较为完善。为验证本文算法的有效性,采用不同来源、比例尺均为1$:$25万的两组道路数据进行匹配测试。

    • 地理实体语义相似性计算的基本过程如图 2所示。

      图  2  地理实体语义相似性计算过程

      Figure 2.  Semantic Similarity Computational Process of Geographical Entities

      1) 分析地理要素分类编码规范,建立数据源AB中道路数据的分类编码对应关系,将地物编码作为约束条件,从数据图层中抽取目标数据集。本文以县道数据为例,利用县道编码分别从数据源A中选取某一区域县道数据130条,从数据源B中提取同一区域的县道数据547条,如图 3所示。

      图  3  同一地区不同来源的县道数据

      Figure 3.  County Roads Data from Different Sources in the Same Area

      2) 对两种数据源的数据字典进行分析,根据目标实体所属地物类别,获取目标数据集的属性设置信息和属性特征定义,其中数据源A中用于描述县道数据的属性特征项包含GB、RN、RDPAC、RTEG、NAME、MATRL、LANE、SDTF、WIDTH、TYPE、PERIOD等,数据源B中的县道属性特征项则包含编码、名称、类型、编号、等级、路宽、铺宽、净空高、里程等[18]。查看属性信息表,在分析属性内容的完整性和属性描述信息的基础上,建立数据源AB中县道实体之间的特征对应关系,如NAME-名称、TYPE-类型、RN-编号、RTEG-等级、WIDTH-路宽等组合。

      3)从目标数据集中抽取所有县道地理实体的属性特征信息,分别统计步骤2)所获得的属性特征项组合中各个特征取值的分布信息,利用式(2)计算属性特征熵值,结果如表 1所示。

      表 1  属性特征熵值

      Table 1.  Attribute Feature Entropy

      数据源 属性特征项 属性熵
      A NAME 5.37
      TYPE 1.68
      RN 5.37
      RTEG 1.98
      WIDTH 3.46
      B 名称 5.66
      类型 1.86
      编号 5.47
      等级 2.01
      路宽 3.01

      4)将属性特征熵值转换成属性特征项的权重值,利用式(3)对步骤3)获得的熵值进行计算,实现归一化处理,进而获得不同属性特征项的权重,这里将对应属性特征的权重的均值作为属性特征组合的权重,结果如表 2所示。

      表 2  属性特征组合权重值

      Table 2.  Weight Values of Attribute Feature Groups

      属性特征组合 数据源A 数据源B 平均值
      NAME-名称 0.26 0.25 0.255
      TYPE-类型 0.15 0.15 0.150
      RN-编号 0.25 0.25 0.250
      RTEG-等级 0.15 0.15 0.150
      WIDTH-路宽 0.19 0.20 0.195

      5)根据属性特征项的取值类型,分别采用对应的语义相似性度量算法进行计算,并利用式(1)计算各个地理实体的综合语义相似性,结果如表 3所示。

      表 3  地理实体语义相似性度量的结果

      Table 3.  Results of Geographic Entity Semantic Similarity Measurement

      实体编号 1 6 36 38 40 41
      3 0.45 0.28 0.34 0.28 0.27 0.23
      6 0.45 0.28 0.34 0.28 0.27 0.23
      7 0.37 0.42 1.00 0.42 0.62 0.58
      17 0.31 0.50 0.65 0.50 0.64 0.61
      31 0.36 0.55 0.62 0.55 1.00 0.97
    • 本文引入查准率$Q_{A}$与查全率$Q_{C}$对匹配结果进行评价[5],计算公式如下:

      $$Q_A=\frac{N_r}{N_1}\times{}100\%$$ (10)
      $$Q_C=\frac{N_r}{N_2}\times{}100\%$$ (11)

      式中,$N_{1}$为匹配集包含的实体对数目;$N_{2}$为两种数据源中客观存在的相同实体对数目;$N_{r}$为正确匹配的实体对数目。

      为了确定合理的地理实体匹配阈值,分别设置不同的语义相似性约束值,其查全率与查准率变化如图 4所示。从图 4中可以看出,当阈值设定为0.8时,匹配结果的查全率与查准率较好。

      图  4  不同阈值下地理实体匹配的查全率与查准率

      Figure 4.  Recall and Precision of Geographic Entity Matching Under Different Thresholds

      为了提高计算地理实体语义相似性的效率,本文将权重较大的属性特征项组合作为条件,缩减参与匹配的地理实体对集,其基本思想是所选取的属性特征项的差异损失值要小于匹配阈值允许损失值。假设地理实体语义匹配的阈值为T,利用式(3)计算得到属性特征项组合的权重, 将属性特征组合按照权重大小进行排序:$W(p_{1}, p_{1}')>W(p_2, {p}_2')$>$\ldots{}$>$W(p_n, p_{n}')$,选取权重较大的属性特征项组合作为语义约束来缩减范围:(1)当$W(p_{1}, p_{1}')>1-T$时,若参与匹配的地理实体对满足$W(p_{1}, p_{1}')\times 1-S_T(p_1, p_1'))\leq 1-T$时,则可以参与下一步匹配;(2)当$W(p_{1}, p_{1}')\leq 1-T$时,优先选取m个较大的属性特征组合,使其权重之和满足$\sum{}W(p_i, p_i')>1-T$,1 < ${m}\leq{}n$,其中,n是属性特征项组合的个数。若参与匹配的地理实体对满足$\sum W\left(p_{i}, p_{i}^{\prime}\right) \times\left(1-S_{T}\left(p_{i}, p_{i}^{\prime}\right)\right) \leqslant 1-T$时,则可以参与下一步匹配。上述过程中已经能够剔除大量的实体对,可以根据具体情况决定是否继续加入其他属性特征项组合进一步缩减范围,以获得较满意的匹配对集。

      本文将道路地理实体的语义相似性阈值设定为0.8,其属性特征项组合"NAME-名称"的权重值最大,并且大于0.2,符合第一种情况。经过一次缩减得到实体对为5 080个,此时完成道路实体匹配的计算量为两两结合方式的25.7%,节约了大量数据处理时间。采用上述方法进行计算,当地理实体的语义相似性值大于0.8时,部分道路地理实体匹配结果如表 4所示。

      表 4  地理实体匹配结果

      Table 4.  Geographic Entity Matching Results

      语义相似性值 数据源A 数据源B
      1 1,6, 38, 74 39, 72, 79, 93,188, 191, 193, 196, 199, 271, 350, 356, 357, 358, 499, 538
      0.9~1 13,23, 112 252, 263, 296, 443, 469, 470,119, 122
      0.8~0.9 15,33, 51 217, 218, 290, 291, 318, 367, 369, 370,231, 237, 325, 388, 407

      语义信息对于地理实体的界定较为明确,属性语义信息较为丰富时,一般不会出现语义相同、位置相距较远的实体匹配情况。但是在进行道路实体语义匹配过程中,存在许多1:NM:N的匹配关系。其中$M:$N的情况主要是由道路分段采集导致,需要先通过分段道路连接将$M:$N问题转化为1$:$N的情况,再利用缓冲区增长方法判断其匹配是否成功。

      在同一语义描述体系下,一条道路在语义特征信息上是无差别或者差异很小的,为了更好地描述地理实体在语义相似条件下的匹配关系,本文假设某一段道路R在数据源AB中被划分为nm段,分别由包含n个道路实体集合$R_{A}$、包含m个道路实体集合$R_{B}$组成,若$R_{A}$中某一道路与$R_{B}$中任意一个道路实体实现匹配,即认为其匹配正确。若道路实体集合$R_{A}$与$R_{B}$均正确匹配,则认为存在$n\times{}m$个正确匹配的实体对。

      为了评价本文方法的地理实体匹配效果,根据道路正确语义匹配的定义,分别对平均权重[19]、专家评估权重以及本文熵值法权重的匹配结果进行比较,结果如表 5所示。

      表 5  3种相似性度量方法的匹配结果比较

      Table 5.  Comparison of Matching Results of Three Similarity Measurement Methods

      匹配方法 N1 N2 Nr QA/% QC/%
      平均权重法 921 1 231 837 90.9 68.0
      专家评估法 889 1 231 873 98.2 70.9
      本文方法 904 1 231 859 95.0 69.8

      表 5可以看出,在查准率和查全率方面,本文方法能够充分利用属性特征项的特点,合理分配权重,获得的结果优于目前常使用的平均权重方法的结果,与专家评估权重方法的结果也比较接近。但是在查全率方面,3种方法获得的结果均较不理想,分析其原因可能是属性特征项内容缺失,尤其是权重较大的属性缺失,对于语义相似性度量的影响较大,从而造成实体匹配成功率低。此外,属性信息的错误采集、描述存在差异、同一条道路分段命名等也是造成地理实体匹配失败的原因,因此属性特征项的完备性与准确性对于地理实体语义匹配具有十分重要的意义。

    • 本文充分利用矢量空间数据中地理实体的各项语义描述信息和特征统计信息,通过地理要素分类映射、属性特征项对应建立地理实体集的语义关联,针对不同类型的属性特征建立适合的相似性计算方法,并结合实际数据对各个属性特征赋予客观的权重值,综合多特征约束计算地理实体的整体语义相似性。该方法考虑了地理要素分类对地理实体特征抽象的影响,能够客观科学地计量不同地理实体之间的语义描述差异,帮助建立不同来源数据中地理实体的匹配关系。随着传感器网络的建立,数据挖掘、文本分析等技术的不断发展,关于地理实体的属性描述信息会越来越丰富,种类也会越来越多,需要根据具体情况进一步丰富更多属性类型的相似性度量算法。

参考文献 (19)

目录

    /

    返回文章
    返回