留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

地理信息语义的LOD表达与相似性度量

贾小斌 艾廷华 彭子凤 王光霞

贾小斌, 艾廷华, 彭子凤, 王光霞. 地理信息语义的LOD表达与相似性度量[J]. 武汉大学学报 ● 信息科学版, 2016, 41(10): 1299-1306. doi: 10.13203/j.whugis20140711
引用本文: 贾小斌, 艾廷华, 彭子凤, 王光霞. 地理信息语义的LOD表达与相似性度量[J]. 武汉大学学报 ● 信息科学版, 2016, 41(10): 1299-1306. doi: 10.13203/j.whugis20140711
JIA Xiaobin, AI Tinghua, PENG Zifeng, WANG Guangxia. The LOD Representation and Proximity Measurement of Semantic About Geographic Information[J]. Geomatics and Information Science of Wuhan University, 2016, 41(10): 1299-1306. doi: 10.13203/j.whugis20140711
Citation: JIA Xiaobin, AI Tinghua, PENG Zifeng, WANG Guangxia. The LOD Representation and Proximity Measurement of Semantic About Geographic Information[J]. Geomatics and Information Science of Wuhan University, 2016, 41(10): 1299-1306. doi: 10.13203/j.whugis20140711

地理信息语义的LOD表达与相似性度量

doi: 10.13203/j.whugis20140711
基金项目: 

数字制图与国土信息应用工程国家测绘局重点实验室开放研究基金 No.GCWD201403

详细信息
    作者简介:

    贾小斌,博士,主要从事地理信息语义建模与量化计算研究。jiaxiaobin_123@126.com

  • 中图分类号: P208

The LOD Representation and Proximity Measurement of Semantic About Geographic Information

Funds: 

The Open Research Fund Program of Key Laboratory of Digital Mapping and Land Information Application Engineering, State Bureau of Surveying and Mapping No.GCWD201403

图(7) / 表(4)
计量
  • 文章访问数:  979
  • HTML全文浏览量:  32
  • PDF下载量:  316
  • 被引次数: 0
出版历程
  • 收稿日期:  2015-04-21
  • 刊出日期:  2016-10-05

地理信息语义的LOD表达与相似性度量

doi: 10.13203/j.whugis20140711
    基金项目:

    数字制图与国土信息应用工程国家测绘局重点实验室开放研究基金 No.GCWD201403

    作者简介:

    贾小斌,博士,主要从事地理信息语义建模与量化计算研究。jiaxiaobin_123@126.com

  • 中图分类号: P208

摘要: 提出一种实用性较强的地理信息语义表达及相似性度量模型,实现从地理信息语义建模到相似性度量的完整技术链条。在对地理信息语义表达的内容与尺度分析的基础上,提出地理信息语义描述的基本结构,并将其进一步细化为具有不同大小的语义粒度项,以构建出地理信息语义的细节层次(level of detail,LOD)表达模型,最后依据地理信息概念间相关语义粒度项的匹配关系实现地理信息语义相似程度的定量化计算,在实例分析中则以土地利用类型为例进行相似度计算的实验,通过实验结果与实际经验判断比较验证出该模型具有较强的实用性。

English Abstract

贾小斌, 艾廷华, 彭子凤, 王光霞. 地理信息语义的LOD表达与相似性度量[J]. 武汉大学学报 ● 信息科学版, 2016, 41(10): 1299-1306. doi: 10.13203/j.whugis20140711
引用本文: 贾小斌, 艾廷华, 彭子凤, 王光霞. 地理信息语义的LOD表达与相似性度量[J]. 武汉大学学报 ● 信息科学版, 2016, 41(10): 1299-1306. doi: 10.13203/j.whugis20140711
JIA Xiaobin, AI Tinghua, PENG Zifeng, WANG Guangxia. The LOD Representation and Proximity Measurement of Semantic About Geographic Information[J]. Geomatics and Information Science of Wuhan University, 2016, 41(10): 1299-1306. doi: 10.13203/j.whugis20140711
Citation: JIA Xiaobin, AI Tinghua, PENG Zifeng, WANG Guangxia. The LOD Representation and Proximity Measurement of Semantic About Geographic Information[J]. Geomatics and Information Science of Wuhan University, 2016, 41(10): 1299-1306. doi: 10.13203/j.whugis20140711
  • 语义建模及相似性度量是地理信息匹配与融合和更新、检索与查询、聚类及异常探测、规律演变与差异性探寻、动态相似性推理和预测、知识挖掘、共享与互操作等方面需要关心的问题。近年来,许多学者从地理信息空间相似性的不同角度应用不同方法进行度量和应用方面的研究[1-3] ,而针对语义相似性度量的研究则稍显滞后。在对地理信息语义进行描述分析时,通常都会利用本体理论来进行研究,文献[4-8]分别利用本体理论中的本体属性集、形式本体和逻辑本体对地理信息语义进行表达,但对地理信息语义的概念及描述内容没有明确说明;在对地理信息语义相似性度量方面,文献[9-13] 针对不同类型的地理信息进行了定性化度量,文献[4]对表达地理信息语义的不同类型属性进行了分析并提出不同的计算方法,但在地理信息语义的整体度量方面利用了一个“权重融合”的字眼,没能够形成一个完整的度量模型。

    本文提出地理信息语义的概念及其表达的基本内容,通过对其描述及表达尺度的分析,提出地理信息语义描述的基本结构,将其进一步细化为具有不同粒度大小的语义粒度项,并构建出地理信息语义的细节层次(level of detail,LOD)表达模型,最后依据地理信息概念间相关语义粒度项的匹配关系计算出地理信息语义相似程度的具体量值,在实验中以土地利用类型为例进行相似度计算的分析,通过实验结果与实际经验比较验证,该模型具有较强的实用价值。

    • 语义即数据的含义,是数据所反应的真实世界中事物的概念以及相互间关系,是数据在具体领域上的解释与逻辑表达。地理信息语义则侧重于描述地理现象以及人与地理有关的地理数据含义。常用的表达方式有自然语言描述法、比喻法、代数法、描述逻辑法、特征项描述法等,这里采用特征项描述法。

    • 从内容和表达尺度2个方面对其基本结构形式化描述并进行二者交叉融合后的粒度划分。

      首先,将地理信息语义从内容上分为物质性和关系性。物质性主要是指地理现象或实体的物质成分或者与之相关的辅助信息,湖泊的成份主要为水,根据水的含盐量则可区分为咸水湖和淡水湖;关系性主要是指其与自然界中其他实体或者现象间的关系,如湖泊与人之间的关系主要体现在其功能上,如湖泊具有灌溉作用。依据地理信息语义内容的物质性和关系性,可将其形式化表达为S=<M,R>,其中M代表物质性描述,R则代表关系性描述。

      其次,将地理信息语义区分为2个层次的表达尺度——内涵和外延,内涵是指地理现象或者实体的本质特征,外延则主要是对其描述范围的限定。依据其层次上的内涵和外延,将其形式化描述为:S=<C,D>,其中C代表有关内在本质特征的描述,D则代表有关外在状态的描述。

      融合内容与表达尺度,地理信息语义可表达为:

      (1)

      若将CM、CR、DMDR分别表达为:

      (2)

      S可表达为:

      (3)

      进一步将式(3) 归一化表达为语义粒度项的元组形式,如式(4) :

      (4)

      其中,Ii为对地理信息语义的细分粒度,其具有CM、CR、DM和DR等4种基本类型,分别记作T1T2T3T4,由此构成了地理信息语义基本描述结构。

    • 表达地理信息语义项具有大小之分,在结构上具有一定的层次性,因此可将式(4) 以及层次结构描述为如图 1所示的LOD模型。在式(4) 中,n代表地理信息的语义粒度项总数,第i个语义粒度项Ii可表达为<Namei,{vi1,vi2,…,vij},Pi,LODi>,Namei表示该项名称,{vi1,vi2,…,vij}表示该项值域,j表示值域中元素值的总数,Pi表示该性质,Pi∈{T1,T2,T3,T4},LODi表示该项所处层次,LODi∈{1,2,…,m}。对任意地理信息概念Ck,定义函数V(Ck,I)代表其在语义粒度项I:<Name,{v1,v2,…,vj},Pi,LODi>的取值,若其在语义粒度项I上有语义特征,则V(Ck,I)=I·v;反之,V(Ck,I)=0。

      图  1  地理信息语义的LOD表达模型

      Figure 1.  A LOD Representation Model for Semantics of Geographic Information

    • 相似性度量的方法较多,包括基于字符串的模型、基于语义距离的模型[12] 、基于信息论的模型[11] 和基于特征匹配的模型[10, 13] 以及上述的混合模型等。本文利用基于特征匹配的模型来进行相似性度量。

    • 基于特征匹配的模型是依据概念或对象的特征(如性质、作用和属性)来判断语义相似度,共同的特征会增加两个概念的相似度,反之则降低。若对象ab分别有特征集ABAB表示ab的相同特征的集合,A-B表示属于a但不属于b的特征集合,B-A表示属于b但不属于a的特征集合,则基于特征匹配的语义相似度计算的比率模型可表示为[13]

      (5)

      式中,参数β、γ为修正系数;f为密度函数。相似度S(a,b)在0~1之间,值为1表示两个对象之间所有特征相同,值为0表示两个对象之间所有特征都不同。

    • 应用基于特征匹配的相似性度量的比率模型对地理信息语义进行计算。

      1) 单一粒度项上的匹配关系。地理信息概念在同一语义粒度项上的匹配关系可归结为取值相同、取值不同、没有取值3种情形。若定义地理信息概念CiCj在语义粒度项I:<Name,{v1,v2,…,vk},P,LOD>上的匹配关系函数为fM(Ci,Cj,I),则fM(Ci,Cj,I)可表达为式(6) ,若CiCj取值相同,则fM(Ci,Cj,I)=1;若CiCj任意一个没有取值,则fM(Ci,Cj,I)=0;若CiCj在有不同取值,则 0≤fM(Ci,Cj,I)≤1。针对不同取值的情形,文中采用文献[4]中语义粒度项匹配关系的计算方法,具体区分标称型、同义型、层次型、数值型和其他型等5种不同类型,分别采用不同的匹配算法。

      (6)

      2) 语义粒度项权重描述。语义粒度项对地理信息概念整体相似性具有不同程度的影响,主要受性质(或类型)和粒度大小2个因素的影响。定义函数fW(Ik)代表语义粒度项Ik的地理信息概念相似关系的影响权重,则fW(Ik)可表达为式(7) 所示,其中WKTWKS分别代表语义粒度项的性质(或类型)和粒度大小影响下的权重。

      (7)

      3) 语义相似性的整体度量。将地理信息概念CiCj的语义特征集合分别用函数fSF(Ci)和fSF(Cj)表示,依据特征匹配的比率模型(式(1) ),其语义相似度fSND(Ci,Cj)可表达为式(8) :

      (8)

      分别定义函数fSED(Ci,Cj)代表地理信息概念CiCj语义特征相同部分的量值,函数fSUD(Ci,Cj)代表CiCj语义特征不同的部分中属于Ci而不属于Cj的量值,则CiCj的语义相似度fSND(Ci,Cj)可表达为:

      (9)

      结合式(7) ,则函数fSED(Ci,Cj)、fSUD(Ci,Cj)、fSUD(Cj,Ci)可进一步表达为:

      (10)
      (11)
      (12)
    • 第二次全国土地资源调查的《土地利用现状分类》采用2级分类体系,其中一级类有8类,二级类有38类,依据上述地理信息语义相似性度量模型对38个二级类进行相似度计算,将二级类依次用C1~C38表示(下文同),如图 2所示。

      图  2  土地利用现状分类(农村土地调查)

      Figure 2.  Land-use Status Category (Rural Land Survey)

      1) 土地利用类型的语义建模。依据土地表层的物质成分、形态、覆盖物以及人地关系来对土地利用现状类型进行语义建模,共计16个语义粒度项区分3个LOD级别,如图 3所示。其中地表类型和覆盖类型是有关土地本质物质性的特征,形态和覆盖成因是对土地物质性的进一步描述,用途是对人地关系本质性的描述,利用状态则是对人地关系的进一步描述,结合§1.1中对地理信息语义粒度项性质划分依据,将地表类型与覆盖类型认定为T1(CM)型,用途为T2(CR)型,坡度特征与覆盖成因为T3(DM)型,利用状态为T4(DR)型。另外在坡度特征中,以坡度(0~10°、10°~30°、>30°)为指标将土地区分为平地、坡地和山地3种类型。

      图  3  土地利用类型(二级类)语义的LOD表达模型

      Figure 3.  A LOD Representation Model for Semantic of Land-use Categories

      2) 土地利用类型的语义取值。依据第二次全国土地资源调查的《土地利用现状分类》中用地类型的定义,对C1~C38进行图 4所示的语义粒度项进行取值。如对土地利用类型C1(水田),其在土壤质地的取值为砂土,则表达为V(水田,<土壤质地,…>)=砂土;在木本种类上没有取值,则表达为V(水田,<木本种类,…>)=0。综合其在所有语义粒度项上的取值,则其语义特征可表达为fSF(水田)={土壤地表,平地,植被,人工建造,农用地,已利用,砂土,草本,水生,农作物,0,生态利用,生产性利用,农业土地经营,0,有水源保证}。其他37个用地类型在图 3的LOD表达模型上取值情况如图 4所示。

      图  4  土地利用类型C1~C38的语义特征分布

      Figure 4.  Distributions of Semantic Characteristic of Land-use Categories

      3) 语义特征权重取值。语义粒度项的权重取值主要受性质(或类型)和粒度大小2个因素的影响。首先,将§1.1中语义粒度项的4种性质(或类型)进行权重影响大小的排序,即T1(CM)>T2(CR)>T3(DM)>T4(DR),权重取值如表 1所示;然后,将语义粒度项按照粒度大小(在LOD表达模型中的等级高低)进行权重取值,如表 2所示;第三,式(7) 将语义粒度项受性质和粒度大小的复合权重取值结果如表 3所示;最后,将图 3中的16个语义粒度项依据表 3进行权重取值,结果如表 4所示。

      表 1  语义粒度项依据性质(或类型)的权重取值

      Table 1.  Weight Value of Semantic Characteristic Based on Its Nature

      性质T1(CM)T2(CR)T3(DM)T4(DR)
      权重取值 4 3 2 1

      表 2  语义粒度项依据LOD级别(粒度大小)的权重取值

      Table 2.  Weight Value of Semantic Characteristic Based on Its Level in the LOD Representation Model

      级别LOD1LOD2LOD3
      权重取值 3 2 1

      表 3  语义粒度项依据性质(或类型)和LOD级别(粒度大小)复合影响(式(7) )的权重取值

      Table 3.  Weight Value of Semantic Characteristic Based on Its Nature and Level in the LOD Representation Model

      级别性质
      T1(CM)T2(CR)T3(DM)T4(DR)
      LOD1 7 6 5 4
      LOD2 6 5 4 3
      LOD3 5 4 3 2

      表 4  语义粒度项权重取值情况

      Table 4.  Weight Value of Semantic Characteristic

      特征名称地表类型(T1/LOD1) 坡度特征(T3/LOD1) 覆盖类型(T1/LOD1) 覆盖成因(T3/LOD1) 用途(T2/LOD1) 利用状态(T4/LOD4) 土壤质地(T1/LOD2) 茎的性质(T3/LOD2) 生长习性 (T3/LOD2) 植被用途(T3/LOD2) 附着物性质(T2/LOD2) 利用方式1(T4/LOD2) 利用方式2(T4/LOD2) 经营目的(T4/LOD2) 木本种类(T1/LOD3) 水利条件(T1/LOD3)
      权重取值 7 5 7 5 6 4 6 4 4 4 5 3 3 3 5 5

      4) 相似度计算。设置式(9) 中参数α=β=1,令式(10) ~式(12) 中的权重函数fW(Ik)取值如表 4所示,依据§2.2计算C1~C38间的相似度,如对土地利用类型——水田和水浇地进行相似度计算时,建立二者的语义关系比较如图 5所示,二者在语义粒度项“地表类型、坡度特征、覆盖类型、覆盖成因、用途、利用状态、植被用途、茎的性质、利用方式1、利用方式2、经营目的、水利条件”上具有相同取值,则fSED(水田,水浇地)=7+5+7+5+6+4+4+4+3+3+3+5=56;在语义粒度项“土壤质地、生长习性”上具有不同取值,在语义粒度项“附着物性质、木本种类”没有取值,则fSUD(水田,水浇地)=fSUD(水浇地,水田)=6+4= 10;fSND(水田,水浇地)=fSED(水田,水浇地)/(fSED(水田,水浇地)+2fSUD(水田,水浇地))=56/(56+10+ 10) ≈0.74。

      图  5  土地利用类型C1(水田)和C2(水浇地)的语义特征比较

      Figure 5.  Comparison of Semantic Characteristic Between Paddy Fields and Irrigated Land

      5) 结果分析。将§2.2中方法计算C1~C38相互间相似度的部分结果与实际经验判断值比较以验证计算方法的有效性及结果的合理性。

      (1) 对具有相同父类(一级类)的土地利用类型相似度大小进行比较。如土地利用类型C4(果园)、C5(茶园)和C6(其它园地)具有相同一级类(园地),相对其土地利用类型而言,C5C6C4的相似度应最大,计算结果显示:fSND(C4,C5)=0.87,fSND(C4,C6)=0.73。另外,根据图 4可分别建立C4C5C4C6的语义关系比较,如图 6所示。C4C5在语义粒度项“土壤质地”上取值相同,而C4C6在语义粒度项“土壤质地”取值不同,在其它语义粒度项上的取值情形相同,所以fSND(C4,C5)>fSND(C4,C6)。可见C4C5C6的语义相似度计算结果合理。

      图  6  土地利用类型 C4(果园)和C5(茶园)、C4(果园)和C6(其它园地)的相似度比较

      Figure 6.  Comparison of Semantic Proximity Between Orchard and Tea Plantation,Orchard and Other Garden

      (2) 对单个土地利用类型与所有用地类型的相似度结果进行分析比较。依据§2.2中计算方法可建立图 7所示的土地利用类型C15(村庄)和C27(坑塘水面)与C1~C38语义相似度fSND(C15,Ci)、fSND(C27,Cj)(i,j=1,2,…,38) 的分布折线。由图 7可以看出,C15与自身的相似度为最大,fSND(C15,C15)=1;C15与相同父类(城镇村及工矿用地)下的C13(城市)和C14(建制镇)的相似度次之,fSND(C15,C13)=fSND(C15,C14)=0.88,与C12C32C38相似度最小,fSND(C15,C12)=fSND(C15,C32)=fSND(C15,C38)=0。相似度大小基本与具有相同取值的粒度项个数成正比,与取值不同的粒度项个数成反比。同理分析图 7中土地利用类型C27(村庄)与C1~C38的相似度的折线图,基本与经验判断一致。

      图  7  土地利用类型C15C27分别与C1~C38相似度

      Figure 7.  Semantic Proximity Between C15 and C1~C38

    • 本文提出一种地理信息语义新型的表达方式及计算方法,并以土地利用类型为例进行语义特征建模与相似度计算,通过实验结果与实际比较验证,该模型具有较强的实用性,计算结果符合人类的认知。① 提出地理信息语义表达内容的基本结构,从内容上区分为物质型和关系型2种类型,从层次上区分为内涵和外延2个尺度,并在对其表达粒度进行层次细分的基础上建立了LOD表达模型;② 对地理信息语义相似度计算则通过特征匹配的方法进行定量化计算。在粒度权重的定量化描述以及语义建模的完备性和互斥性方面有待加强。

参考文献 (13)

目录

    /

    返回文章
    返回