留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

顾及语义知识的地理空间数据快速检索

刘俊楠 刘海砚 陈晓慧 郭漩 赵清波 刘建湘 康磊

刘俊楠, 刘海砚, 陈晓慧, 郭漩, 赵清波, 刘建湘, 康磊. 顾及语义知识的地理空间数据快速检索[J]. 武汉大学学报 ● 信息科学版, 2022, 47(3): 463-472. doi: 10.13203/j.whugis20200058
引用本文: 刘俊楠, 刘海砚, 陈晓慧, 郭漩, 赵清波, 刘建湘, 康磊. 顾及语义知识的地理空间数据快速检索[J]. 武汉大学学报 ● 信息科学版, 2022, 47(3): 463-472. doi: 10.13203/j.whugis20200058
LIU Junnan, LIU Haiyan, CHEN Xiaohui, GUO Xuan, ZHAO Qingbo, LIU Jianxiang, KANG Lei. Rapid Retrieval of Geospatial Data Considering Semantic Knowledge[J]. Geomatics and Information Science of Wuhan University, 2022, 47(3): 463-472. doi: 10.13203/j.whugis20200058
Citation: LIU Junnan, LIU Haiyan, CHEN Xiaohui, GUO Xuan, ZHAO Qingbo, LIU Jianxiang, KANG Lei. Rapid Retrieval of Geospatial Data Considering Semantic Knowledge[J]. Geomatics and Information Science of Wuhan University, 2022, 47(3): 463-472. doi: 10.13203/j.whugis20200058

顾及语义知识的地理空间数据快速检索

doi: 10.13203/j.whugis20200058
基金项目: 

河南省自然科学基金 182300410005

国家自然科学基金 41801313

详细信息
    作者简介:

    刘俊楠,博士生,主要从事时空数据挖掘与知识图谱相关研究。6929423@qq.com

    通讯作者: 刘海砚,博士,教授。liu2000@vip.sina.com
  • 中图分类号: P208

Rapid Retrieval of Geospatial Data Considering Semantic Knowledge

Funds: 

The Natural Science Foundation of Henan Province 182300410005

the National Natural Science Foundation of China 41801313

More Information
    Author Bio:

    LIU Junnan, PhD candidate, specializes in spatial-temporal data mining and knowledge graph. E-mail: 6929423@qq.com

    Corresponding author: LIU Haiyan, PhD, professor. E-mail: liu2000@vip.sina.com
  • 摘要: 大数据时代地理空间资源不断增多,但现有通用知识库较少考虑地理空间数据蕴含的语义知识,难以实现数据的快速检索。因此亟需引入本体技术,以蕴含的语义知识为基础,提高地理空间数据访问速度,精确获取用户所需信息。以本体为基础,提出了顾及地理空间数据语义知识的快速检索方法。首先,基于通名编码规则、地理空间数据和开源百度百科数据构建语义知识库;然后,定义查询重写规则,设计语义知识和空间数据库映射方式,基于地名自动构建检索语句;最后,通过实例应用和效率、质量对比分析验证快速检索方法的可行性。该方法以地理空间数据的语义知识为基础,仅通过地理实体名称即可自动构建数据库检索语句,减少用户对数据存储方式和数据库语法规则的依赖,有效提高系统的检索效率和智能化程度。
  • 图  1  OBDA系统抽象技术框架

    Figure  1.  OBDA System Abstract Technology Framework

    图  2  地理空间数据快速检索流程

    Figure  2.  Flowchart of Geospatial Data Rapid Retrieval

    图  3  地名语义知识库片段(交通运输仓储部分)

    Figure  3.  Semantic Knowledge Base of Transportation Facilities Place Names

    图  4  地理空间数据库语义知识提取方法

    Figure  4.  Semantic Knowledge Extraction Method for Geospatial Database

    图  5  语义查询扩展实例

    Figure  5.  Semantic Expansion Example

    图  6  地理空间数据库实例

    Figure  6.  Geospatial Database Example

    图  7  构建SQL检索语句的逻辑关系

    Figure  7.  Building SQL Retrieval Statements on Logical Relationships

    图  8  地理空间数据检索结果

    Figure  8.  Retrieval Results for Geospatial Data

    表  1  语义查询扩展类型[4, 30]

    Table  1.   Semantic Query Expansion Type[4, 30]

    查询扩展类型 说明
    同义扩展 通过本体获取检索词概念的同义词
    属性扩展 通过本体获取与检索词存在属性关联的概念
    层次扩展 根据检索词概念和层次结构,扩展或缩小概念范围
    下载: 导出CSV

    表  2  本体和地理空间数据库的映射规则

    Table  2.   Mapping Rules for Ontology and GeospatialDatabases

    映射标签 映射关系描述
    MappingToTable 本体概念对应数据库表
    MappingToField 本体概念对应数据库表的属性字段
    hasProperty 本体中数据库表和属性字段对应概念的关联关系
    下载: 导出CSV

    表  3  OBDA系统信息表示方式

    Table  3.   Information Representation in OBDA

    类型 关系数据库信息表示 本体信息表示
    表名与本体概念 {x|交通运输仓储(x)} {x|交通运输附属设施(x)}
    属性字段与本体属性值 {x|Name(x)} {x|名称(x)}
    {x|Kind(x)} {x|类型(x)}
    下载: 导出CSV

    表  4  检索结果效率统计

    Table  4.   Statistics of Experimental Results

    实验次数 检索概念(实例) 特定类型地理要素数量/个 平均效率/ms
    常规检索 快速检索
    1 大桥(胶州湾大桥) 47 028 654 325
    2 火车站(郑州火车站) 6 276 647 50
    3 充电站(郑州东方国际广场充电站) 14 276 650 208
    4 收费站(郑州新区收费站) 27 865 648 51
    下载: 导出CSV

    表  5  检索质量对比分析实例

    Table  5.   Comparative Analysis of Retrieval Quality

    实验类型 检索词 图层A地理要素数量/个 图层B地理要素数量/个 快速检索方法 常规检索(图层A 常规检索(图层B
    检全率/% 检准率/% F 检全率/% 检准率/% F 检全率/% 检准率/% F
    地理实体存在于不同图层 珠港立交桥 39 1 100 100 1 97.5 100 0.98 2.5 100 0.04
    地理实体存在于单一图层 郑州火车站 0 1 100 100 1 0 0 0 100 100 1
    连霍高速公路 10 344 0 100 100 1 100 100 1 0 0 0
    下载: 导出CSV
  • [1] Aloteibi S, Sanderson M. Analyzing Geographic Query Reformulation: An Exploratory Study[J]. Journal of the Association for Information Science and Technology, 2014, 65(1): 13-24 doi:  10.1002/asi.22961
    [2] 唐富年, 姚莉, 李金洋. 基于本体的关系数据库访问研究进展[J]. 小型微型计算机系统, 2011, 32(3): 390-396 https://www.cnki.com.cn/Article/CJFDTOTAL-XXWX201103002.htm

    Tang Funian, Yao Li, Li Jinyang. Ontology-Based Relational Database Access: A Survey and Future Direction[J]. Journal of Chinese Computer Systems, 2011, 32(3): 390-396 https://www.cnki.com.cn/Article/CJFDTOTAL-XXWX201103002.htm
    [3] Giese M, Soylu A, Vega-Gorgojo G, et al. Optique: Zooming in on Big Data[J]. Computer, 2015, 48(3): 60-67 doi:  10.1109/MC.2015.82
    [4] 杨月华, 杜军平, 平源. 基于本体的智能信息检索系统[J]. 软件学报, 2015, 26(7): 1675-1687 https://www.cnki.com.cn/Article/CJFDTOTAL-RJXB201507010.htm

    Yang Yuehua, Du Junping, Ping Yuan. Ontology-Based Intelligent Information Retrieval System[J]. Journal of Software, 2015, 26(7): 1675-1687 https://www.cnki.com.cn/Article/CJFDTOTAL-RJXB201507010.htm
    [5] 王秀坤, 李政, 简幼良, 等. 基于Hash方法的机器翻译词典的组织与构造[J]. 大连理工大学学报, 1996, 36(3): 108-111 https://www.cnki.com.cn/Article/CJFDTOTAL-DLLG603.022.htm

    Wang Xiukun, Li Zheng, Jian Youliang, et al. Machine Translation Dictionary Based on Hash Method [J]. Journal of Dalian University of Technology, 1996, 36(3): 108-111 https://www.cnki.com.cn/Article/CJFDTOTAL-DLLG603.022.htm
    [6] 孙茂松, 左正平, 黄昌宁. 汉语自动分词词典机制的实验研究[J]. 中文信息学报, 2000, 14(1): 1-6 doi:  10.3969/j.issn.1003-0077.2000.01.001

    Sun Maosong, Zuo Zhengping, Huang Changning. An Experimental Study on Dictionary Mechanism for Chinese Word Segmentation[J]. Journal of Chinese Information Processing, 2000, 14(1): 1-6 doi:  10.3969/j.issn.1003-0077.2000.01.001
    [7] 李江波, 周强, 陈祖舜. 汉语词典的快速查询算法研究[J]. 中文信息学报, 2006, 20(5): 31-39 doi:  10.3969/j.issn.1003-0077.2006.05.005

    Li Jiangbo, Zhou Qiang, Chen Zushun. A Study on Fast Algorithm for Chinese Dictionary Lookup[J]. Journal of Chinese Information Processing, 2006, 20 (5): 31-39 doi:  10.3969/j.issn.1003-0077.2006.05.005
    [8] 叶鹏, 张雪英, 杜咪. 顾及字符特征的中文地名词典查询方法[J]. 地球信息科学学报, 2018, 20(7): 880-886 https://www.cnki.com.cn/Article/CJFDTOTAL-DQXX201807003.htm

    Ye Peng, Zhang Xueying, Du Mi. Query Method of Chinese Gazetteer Based on the Character Features [J]. Journal of Geo-Information Science, 2018, 20 (7): 880-886 https://www.cnki.com.cn/Article/CJFDTOTAL-DQXX201807003.htm
    [9] 曾文, 鄢军霞. 城市GIS地名定位工具的设计及应用[J]. 地球科学, 2006, 31(5): 725-728 doi:  10.3321/j.issn:1000-2383.2006.05.029

    Zeng Wen, Yan Junxia. Design and Application of an Urban GIS Placename Location Tool[J]. Earth Science, 2006, 31(5): 725-728 doi:  10.3321/j.issn:1000-2383.2006.05.029
    [10] Lim S C J, Liu Y, Lee W B. Multi-facet Product Information Search and Retrieval Using Semantically Annotated Product Family Ontology[J]. Information Processing and Management, 2010, 46(4): 479-493 doi:  10.1016/j.ipm.2009.09.001
    [11] Kara S, Alan Ö, Sabuncu O, et al. An Ontology-Based Retrieval System Using Semantic Indexing[J]. Information Systems, 2012, 37(4): 294-305 doi:  10.1016/j.is.2011.09.004
    [12] Cui J D, Li F F. The Construction of Grid Information Retrieval Model Based on Ontology[C]//The 2nd International Symposium on Knowledge Acquisition and Modeling, Wuhan, China, 2009
    [13] Brüggemann S, Bereta K, Xiao G H, et al. Ontology-Based Data Access for Maritime Security [C]//European Semantic Web Conference, Anissaras, Crete, Greece, 2016
    [14] Lopez V, Stephenson M, Kotoulas S, et al. Data Access Linking and Integration with DALI: Building a Safety Net for an Ocean of City Data[C]//International Semantic Web Conference, Bethlehem, Pennsylvania, USA, 2015
    [15] Yoo D. Hybrid Query Processing for Personalized Information Retrieval on the Semantic Web[J]. Knowledge-Based Systems, 2012, 27: 211-218 doi:  10.1016/j.knosys.2011.10.004
    [16] Kallipolitis L, Karpis V, Karali I. Semantic Search in the World News Domain Using Automatically Extracted Metadata Files[J]. Knowledge-Based Systems, 2012, 27: 38-50 doi:  10.1016/j.knosys.2011.12.007
    [17] Zhai J, Chen Y, Yu Y, et al. Fuzzy Semantic Retrieval for Traffic Information Based on Fuzzy Ontology and RDF on the Semantic Web[J]. Journal of Software, 2009, 4(7): 758-765
    [18] Lenat D B. CYC: A Large Scale Investment in Knowledge Infrastructure[J]. Communications of the ACM, 1995, 38(11): 33-38 doi:  10.1145/219717.219745
    [19] Miller G A. WordNet[J]. Communications of the ACM, 1995, 38(11): 39-41 doi:  10.1145/219717.219748
    [20] 朱杰, 游雄, 夏青. 利用作战任务本体计算战场环境要素语义相似性[J]. 武汉大学学报·信息科学版, 2019, 44(9): 1407-1415 https://www.cnki.com.cn/Article/CJFDTOTAL-WHCH201909019.htm

    Zhu Jie, You Xiong, Xia Qing. A Semantic Similarity Calculation Method for Battlefield Environment Elements Based on Operational Task Ontology[J]. Geomatics and Information Science of Wuhan University, 2019, 44(9): 1407-1415 https://www.cnki.com.cn/Article/CJFDTOTAL-WHCH201909019.htm
    [21] Calvanese D, de Giacomo G, Lembo D, et al. Ontology-Based Data Access and Integration[M]// Ukkonen A. Encyclopedia of Database Systems. New York: Springer, 2018: 2590-2596
    [22] 张宇轩. 一种基于本体的数据访问与集成系统的设计与实现[D]. 杭州: 浙江大学, 2018

    Zhang Yuxuan. Design and Implementation of an Ontology-Based Data Access and Integrated System [D]. Hangzhou: Zhejiang University, 2018
    [23] Xiao G H, Ding L F, Cogrel B, et al. Virtual Knowledge Graphs: An Overview of Systems and Use Cases [J]. Data Intelligence, 2019, 1(3): 201-223 doi:  10.1162/dint_a_00011
    [24] 龚健雅. 空间数据库管理系统的概念与发展趋势[J]. 测绘科学, 2001, 26(3): 4-9 doi:  10.3771/j.issn.1009-2307.2001.03.002

    Gong Jianya. Concepts and Development of Spatial Database Management System[J]. Developments in Surveying and Mapping, 2001, 26(3): 4-9 doi:  10.3771/j.issn.1009-2307.2001.03.002
    [25] 张春菊, 张雪英, 吉蕾静, 等. 地名通名与地理要素类型的关系映射[J]. 武汉大学学报·信息科学版, 2011, 36(7): 857-861 https://www.cnki.com.cn/Article/CJFDTOTAL-WHCH201107023.htm

    Zhang Chunju, Zhang Xueying, Ji Leijing, et al. Relation Mapping Between Generic Terms of Place Names and Geographical Feature Types[J]. Geomatics and Information Science of Wuhan University, 2011, 36(7): 857-861 https://www.cnki.com.cn/Article/CJFDTOTAL-WHCH201107023.htm
    [26] 张秀红, 刘纪平, 王勇, 等. 面向自然语言空间方向关系查询的语义扩展框架[J]. 地理与地理信息科学, 2018, 34(6): 7-14 doi:  10.3969/j.issn.1672-0504.2018.06.002

    Zhang Xiuhong, Liu Jiping, Wang Yong, et al. A Semantics Extended Framework for Spatial Direction Relation Query Based on Natural Language[J]. Geography and Geo-Information Science, 2018, 34 (6): 7-14 doi:  10.3969/j.issn.1672-0504.2018.06.002
    [27] 刘纪平, 栗斌, 石丽红, 等. 一种本体驱动的地理空间事件相关信息自动检索方法[J]. 测绘学报, 2011, 40 (4): 502-508 https://www.cnki.com.cn/Article/CJFDTOTAL-CHXB201104019.htm

    Liu Jiping, Li Bin, Shi Lihong, et al. An Automated Retrieval Method of Geo-Spatial Event Information Based on Ontology[J]. Acta Geodaetica et Cartographica Sinica, 2011, 40(4): 502-508 https://www.cnki.com.cn/Article/CJFDTOTAL-CHXB201104019.htm
    [28] 邬伦, 刘磊, 李浩然, 等. 基于条件随机场的中文地名识别方法[J]. 武汉大学学报·信息科学版, 2017, 42(2): 150-156 https://www.cnki.com.cn/Article/CJFDTOTAL-WHCH201702002.htm

    Wu Lun, Liu Lei, Li Haoran, et al. A Chinese Toponym Recognition Method Based on Conditional Random Field[J]. Geomatics and Information Science of Wuhan University, 2017, 42(2): 150-156 https://www.cnki.com.cn/Article/CJFDTOTAL-WHCH201702002.htm
    [29] 李爱明. 基于本体和用户查询意图的查询扩展方法研究[J]. 情报科学, 2015, 33(5): 68-71 https://www.cnki.com.cn/Article/CJFDTOTAL-QBKX201505013.htm

    Li Aiming. Research on Query Expansion Method Based on Ontology and User Query Intention[J]. Information Science, 2015, 33(5): 68-71 https://www.cnki.com.cn/Article/CJFDTOTAL-QBKX201505013.htm
    [30] 王旭阳, 萧波. 基于本体和局部上下文分析的查询扩展方法[J]. 计算机工程, 2012, 38(7): 57-59 https://www.cnki.com.cn/Article/CJFDTOTAL-JSJC201207021.htm

    Wang Xuyang, Xiao Bo. Query Expansion Method Based on Ontology and Local Context Analysis[J]. Computer Engineering, 2012, 38(7): 57-59 https://www.cnki.com.cn/Article/CJFDTOTAL-JSJC201207021.htm
    [31] Palmer R C. Information Retrieval Systems: Characteristics, Testing and Evaluation[J]. Information Processing and Management, 1980, 16(1): 57 doi:  10.1016/0306-4573(80)90006-0
    [32] 文静, 邓小昭. 基于本体的知识检索系统评估机制探析[J]. 图书馆学研究, 2017 (15): 65-68 https://www.cnki.com.cn/Article/CJFDTOTAL-TSSS201715012.htm

    Wen Jing, Deng Xiaozhao. Analysis of the Evaluation Mechanism of Ontology-Based Knowledge Retrieval System[J]. Research on Library Science, 2017(15): 65-68 https://www.cnki.com.cn/Article/CJFDTOTAL-TSSS201715012.htm
  • [1] 杜志强, 李钰, 张叶廷, 谭玉琪, 赵文豪.  自然灾害应急知识图谱构建方法研究 . 武汉大学学报 ● 信息科学版, 2020, 45(9): 1344-1355. doi: 10.13203/j.whugis20200047
    [2] 陈勉, 李龙海, 谢鹏, 付少锋, 何列松, 周校东.  基于Phoenix的地理空间大数据管理系统 . 武汉大学学报 ● 信息科学版, 2020, 45(5): 719-727. doi: 10.13203/j.whugis20180435
    [3] 朱剑锋, 陈珉.  语义异构环境下基于本体的供应链知识协同研究 . 武汉大学学报 ● 信息科学版, 2014, 39(1): 123-126.
    [4] 刘耀林, 国洪艳, 唐旭, 赵翔.  面向多层次公众认知需求的土地利用规划信息重构模型 . 武汉大学学报 ● 信息科学版, 2011, 36(5): 556-559.
    [5] 王艳东, 黄定磊, 罗安, 龚健雅.  利用MDA进行空间信息服务组合建模 . 武汉大学学报 ● 信息科学版, 2011, 36(5): 514-518.
    [6] 詹勤, 李德仁, 眭海刚, 张霞.  一种遥感信息服务分类本体构建方法 . 武汉大学学报 ● 信息科学版, 2010, 35(3): 343-346.
    [7] 刘耀林, 李红梅, 杨淳惠.  基于本体的土地利用数据综合研究 . 武汉大学学报 ● 信息科学版, 2010, 35(8): 883-886.
    [8] 李清泉, 尹建忠, 贺奋琴.  面向道路网的GPS浮动车覆盖率模型研究 . 武汉大学学报 ● 信息科学版, 2009, 34(6): 715-718.
    [9] 管玉娟, 张利权, 陈春祥.  基于CO-CA的海岸带盐沼植被动态扩散模型研究 . 武汉大学学报 ● 信息科学版, 2009, 34(6): 701-705.
    [10] 汪西莉, 覃婧婵, 曹菡, 师军.  基于SRC-Ontology的空间拓扑关系拓展表示方法及实现 . 武汉大学学报 ● 信息科学版, 2009, 34(3): 339-343.
    [11] 李德仁, 王泉.  基于时空模糊本体的交通领域知识建模 . 武汉大学学报 ● 信息科学版, 2009, 34(6): 631-635.
    [12] 陈旭, 朱欣焰, 杜道生, 张路.  影像与栅格元数据本体实现及语义查询扩展应用 . 武汉大学学报 ● 信息科学版, 2009, 34(6): 646-649.
    [13] 李芳, 边馥苓.  面向任务地图综合中要素的语义性权重判定 . 武汉大学学报 ● 信息科学版, 2007, 32(3): 279-281.
    [14] 吴孟泉, 宋晓东, 崔伟宏.  基于本体的异构空间数据的集成研究 . 武汉大学学报 ● 信息科学版, 2007, 32(10): 915-918.
    [15] 赵冬青, 李雪瑞.  LBS中位置及其语义的研究 . 武汉大学学报 ● 信息科学版, 2006, 31(5): 458-461.
    [16] 谭喜成, 边馥苓.  用贝叶斯分类方法和本体实现空间信息语义互操作 . 武汉大学学报 ● 信息科学版, 2006, 31(8): 724-727.
    [17] 崔巍, 李德仁.  基于本体与LDAP的空间信息网格资源管理机制 . 武汉大学学报 ● 信息科学版, 2005, 30(6): 549-552.
    [18] 谭喜成1, 边馥苓1.  基于本体协同的空间信息互操作方法 . 武汉大学学报 ● 信息科学版, 2005, 30(2): 178-181.
    [19] 李德仁, 崔巍.  空间信息语义网格 . 武汉大学学报 ● 信息科学版, 2004, 29(10): 847-851.
    [20] 李德仁, 王树良, 史文中, 王新洲.  论空间数据挖掘和知识发现 . 武汉大学学报 ● 信息科学版, 2001, 26(6): 491-499.
  • 加载中
图(8) / 表(5)
计量
  • 文章访问数:  396
  • HTML全文浏览量:  136
  • PDF下载量:  79
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-04-07
  • 刊出日期:  2022-03-05

顾及语义知识的地理空间数据快速检索

doi: 10.13203/j.whugis20200058
    基金项目:

    河南省自然科学基金 182300410005

    国家自然科学基金 41801313

    作者简介:

    刘俊楠,博士生,主要从事时空数据挖掘与知识图谱相关研究。6929423@qq.com

    通讯作者: 刘海砚,博士,教授。liu2000@vip.sina.com
  • 中图分类号: P208

摘要: 大数据时代地理空间资源不断增多,但现有通用知识库较少考虑地理空间数据蕴含的语义知识,难以实现数据的快速检索。因此亟需引入本体技术,以蕴含的语义知识为基础,提高地理空间数据访问速度,精确获取用户所需信息。以本体为基础,提出了顾及地理空间数据语义知识的快速检索方法。首先,基于通名编码规则、地理空间数据和开源百度百科数据构建语义知识库;然后,定义查询重写规则,设计语义知识和空间数据库映射方式,基于地名自动构建检索语句;最后,通过实例应用和效率、质量对比分析验证快速检索方法的可行性。该方法以地理空间数据的语义知识为基础,仅通过地理实体名称即可自动构建数据库检索语句,减少用户对数据存储方式和数据库语法规则的依赖,有效提高系统的检索效率和智能化程度。

English Abstract

刘俊楠, 刘海砚, 陈晓慧, 郭漩, 赵清波, 刘建湘, 康磊. 顾及语义知识的地理空间数据快速检索[J]. 武汉大学学报 ● 信息科学版, 2022, 47(3): 463-472. doi: 10.13203/j.whugis20200058
引用本文: 刘俊楠, 刘海砚, 陈晓慧, 郭漩, 赵清波, 刘建湘, 康磊. 顾及语义知识的地理空间数据快速检索[J]. 武汉大学学报 ● 信息科学版, 2022, 47(3): 463-472. doi: 10.13203/j.whugis20200058
LIU Junnan, LIU Haiyan, CHEN Xiaohui, GUO Xuan, ZHAO Qingbo, LIU Jianxiang, KANG Lei. Rapid Retrieval of Geospatial Data Considering Semantic Knowledge[J]. Geomatics and Information Science of Wuhan University, 2022, 47(3): 463-472. doi: 10.13203/j.whugis20200058
Citation: LIU Junnan, LIU Haiyan, CHEN Xiaohui, GUO Xuan, ZHAO Qingbo, LIU Jianxiang, KANG Lei. Rapid Retrieval of Geospatial Data Considering Semantic Knowledge[J]. Geomatics and Information Science of Wuhan University, 2022, 47(3): 463-472. doi: 10.13203/j.whugis20200058
  • 大数据时代积累了海量数据,其中18%以上与地理空间信息密切相关[1],主要通过关系型数据库进行存储[2]。其中,地理空间数据组织局部有序而整体无序,缺乏语义知识关联性,导致用户在不熟悉数据存储结构和数据库操作的情况下难以实现数据检索[3-4]。为了提高数据检索效率,亟需引入基于本体的数据访问(ontology based data access,OBDA)技术,以语义知识为基础,提高地理空间数据访问速度,为时空知识推理奠定基础,促进地理信息向智能服务方向发展。

    传统地理空间数据检索通常以检索词的字符特征或语义特征为牵引,研究其与地理空间数据的匹配程度。字符特征相似度方面,早期国内外学者借鉴词典查询方法提出了基于Hash[5]、Trie索引树[6]、双字Hash[7]的检索算法。随后,在测绘领域,叶鹏等[8]在此基础上提出了顾及中文字符特征的地名词典查询方法,曾文等[9]提出了以及基于结构化查询语言(structured query language,SQL)的字符匹配方法。但字符特征相似度方法仅将检索词和数据作为普通字符串处理[2],难以顾及地理空间数据的潜在语义知识。语义特征方面,部分学者通过本体对地理空间数据相关概念的语义关系进行描述[4]。OBDA已成为当前检索方法的研究热点[10-12],可通过检索信息的语义关系构建检索语句。文献[13]的海上安全实时服务项目基于OBDA技术整合船只属性和空间信息,通过SPARQL(simple protocol and RDF query language)语言向外提供数据检索服务。文献[14]的智慧城市项目,以OBDA技术为基础实现异构数据融合,提供空间搜索服务。另外,在新闻和交通等领域,也有众多基于OBDA技术实现数据检索的研究成果面世[15-17]。现有OBDA技术已较为成熟,但大多基于领域本体或CYC[18]、WordNet[19]等通用知识库实现,缺乏地理空间数据语义知识,且仅通过单一地理实体名称难以自动构建数据库检索语句。

    OBDA技术的引入是对地理空间相关信息快速获取的尝试。本文提出了顾及地理空间数据语义知识的快速检索方法。首先,基于通名编码规则、地理空间数据集和开源百度百科数据构建语义知识库;其次,定义查询重写规则并设计语义知识和空间数据库的映射规则,自动构建检索语句,实现地理空间数据的快速检索;最后,列举检索实例并对检索效率和质量进行对比分析。本文仅通过地理实体名称即可挖掘所属图层和类别等语义知识,自动构建检索语句,减少用户对数据存储方式和SQL语法规则的依赖,实现顾及语义知识的地理空间数据快速检索。

    • 本文引入OBDA技术自动检索地理空间数据库,提高系统智能化程度,是对地理空间数据快速检索的有益尝试。

    • 本体通过图结构描述概念的语义关系,其中节点代表概念,边表示概念关系[20]。文献[21]提出了OBDA技术框架,通过本体描述的全局模式直接访问关系型数据库,将本体O这一人工智能技术作为信息集成、共享和实现语义关联的途径。本体由术语集合TBox和事实集合ABox两部分组成,即O = < TBoxABox > ,TBox是描述领域结构的公理集,用于概念层次关系建模,ABox则是涉及实体的公理集,表示实体与概念的关系[22]。本文采用虚拟ABox方式实现OBDA技术,无需将ABox作为独立的语法对象,通过映射M将原始关系型数据库S的实例和属性信息与TBox进行关联,实现数据访问,即O= < TBoxMS > (见图 1)。相比于关系型数据库的组织方式,OBDA通过本体的“点-边”结构提高了地理空间数据集成的灵活性,本体的概念和属性层次结构特征为数据检索提供了丰富的语义知识。同时,数据虚拟化提供的概念视图V可避免用户直面关系型数据库,降低了数据检索的复杂程度,有利于实现数据快速检索[23]

      图  1  OBDA系统抽象技术框架

      Figure 1.  OBDA System Abstract Technology Framework

    • 本文以OBDA抽象技术框架为基础,顾及数据语义知识,提出了地理空间数据检索流程(见图 2),包括语义知识库构建、语义查询扩展、语义知识和关系数据库映射以及检索结果返回4个部分。首先通过本体重写检索词的通名Q,并扩展为检索词对应的概念集合Q',然后借助映射关系将概念集合和通名展开为数据库的SQL查询语句Q'',最后将查询工作委托给地理空间数据库完成。具体内容如下:

      图  2  地理空间数据快速检索流程

      Figure 2.  Flowchart of Geospatial Data Rapid Retrieval

      1)语义知识库构建。本文以《地名分类与类别代码编制规则(GBT 18521—2001)》为基础构建本体的概念层次关系,通过地理空间要素、数据图层、属性字段信息以及百度百科开源数据进一步完善本体,建立本体概念与原始地理空间数据库的对应关系。

      2)语义查询扩展。识别检索词通名,并与本体概念进行匹配,以本体的语义关系和描述逻辑公理为基础,对通名概念进行查询扩展和推理,获得更能反映用户查询意图的检索词集合。

      3)语义知识和关系数据库映射。包括地理空间数据的表名、属性信息与本体概念、关系的对应规则。将检索词集合映射为数据库的表名和属性信息,通过检索词获取图层和待匹配字段等潜在语义信息,构建地理空间数据检索语句。

      4)检索并返回结果。利用SQL语句检索地理空间数据库,获取检索词的属性和空间信息,通过GIS系统以多视图联动方式返回检索结果,实现针对概念视图的数据检索。

    • 一个完善的语义知识库是实现地理空间数据快速检索的前提。本文通过本体描述地理空间数据相关概念及关系等语义知识。其中,地理空间数据是对三维空间的压缩,通常采用“垂直分图层、水平分要素、要素分字段”的存储方式。其中,图层的类别属性字段与地理要素存在对应关系,且遵从国家、行业或地区编码标准[24]。此外,名称属性字段包括通名和专名,通名是来自地理学科的专门用语,可区分地理空间数据要素的类型、隶属关系,也可为地理要素和图层类型的映射提供潜在语义知识[25]

      本文首先以《地名分类与类别代码编制规则(GBT 18521—2001)》为基础,提取地名的属性类别和描述信息,建立概念层次关系(图 3中的①),并通过类型属性字段的具体值表示不同层级的本体概念与地理空间数据类型的对应关系,如地理空间数据库的火车站和货运火车站要素的类别信息分别对应为“230103”和“230107”(图 3中②)。其次,遍历地理空间数据集,尽可能提取字符数目多的通名以保证语义知识的完整性,建立图层、要素类型和通名的对应关系(如图 4中①提取交通运输仓储图层、火车站和客运火车站三者的概念层次关系),并通过地理空间数据类型字段和表名信息的一对多关系提取通名与本体概念的一对多关系(如图 4中②通名“桥”对应交通运输仓储与高速公路两个概念)。此外,通过互联网百科资源完善本体的概念层次关系(如图 4中③通过百度百科提取交通设施和车站概念)。然后,通过对象属性关系(hasProperty)关系增加地理空间数据库属性字段的概念,如交通运输仓储包含名称和类型两个字段;通过类型属性字段的具体值表示不同层级的本体概念与地理空间数据类型的对应关系,如地理空间数据库的火车站和货运火车站要素的类别信息分别对应为“230103”和“230107”(图 3中②)。最后,通过概念的相似关系和概念层次关系建立地理空间数据和编码规则的对应关系,完善语义知识库。

      图  3  地名语义知识库片段(交通运输仓储部分)

      Figure 3.  Semantic Knowledge Base of Transportation Facilities Place Names

      图  4  地理空间数据库语义知识提取方法

      Figure 4.  Semantic Knowledge Extraction Method for Geospatial Database

      语义知识库明确定义了地理空间数据相关概念和自身的类别信息,提高了地理空间数据语义知识的规范程度,可作为概念视图为地理空间数据快速检索提供服务。然而,对于不存在或难以提取通名的地理实体,本文构建数据库表存储其名称、类别和图层等3个属性信息,供用户单独进行检索,提高检索效率。

    • 地名检索是一个由繁到简的信息精炼过程,容易忽略用户真实需求的上下文语义信息、原始数据的存储结构和领域知识[26]。本文依据字符特征对通名和本体概念进行匹配,通过语义查询扩展得到概念集合,将地理空间数据检索从字符特征层面延伸到语义知识层面。

    • 通名的概念匹配是指将检索词的通名转换为本体已定义的标准概念,获取检索词的语义知识[27]。通名一般不超过5个字符,可通过其字符信息划分要素类别[2528],因此,本文依据通名的字符特征提取匹配的概念集合。首先提取通名并依据全词匹配获取最优概念集,然后提取包含待匹配通名的概念作为候选概念集,如“郑州火车站”的通名可以匹配“火车站” “客运火车站”和“货运火车站”3个概念。

    • 作为OBDA的核心技术之一,语义查询扩展通过语义知识库获取相关概念,弥补查询信息的不足,从而提高信息检索效率与质量[29]

      1)语义查询扩展类型。相对常规检索方式,本文按照推理规则扩展检索词,提取隐含的语义知识,扩展检索词集合[22]。本文借助通名的概念和丰富的语义关系,从同义扩展、属性扩展和层次扩展3个方面扩展检索词的语义知识(见表 1)。同义扩展是最基本的语义查询扩展类型,通过概念相等关系获取概念的同义词集合,如“交通运输仓储”和“交通运输附属设施”概念属于同义扩展。属性扩展是指通过本体提取通名所包含的对象关系或属性关系的概念集合,如“交通运输附属设施”可以获取“名称”和“类型”等概念。层次扩展可确定某一实体所属的概念或某一概念所属的层次结构,进而通过本体的概念层次关系实现概念的层次关系推理,扩大或缩小通名概念范围,如“货运火车站”可以扩展得到“火车站”和“交通运输仓储”两个概念。

      表 1  语义查询扩展类型[4, 30]

      Table 1.  Semantic Query Expansion Type[4, 30]

      查询扩展类型 说明
      同义扩展 通过本体获取检索词概念的同义词
      属性扩展 通过本体获取与检索词存在属性关联的概念
      层次扩展 根据检索词概念和层次结构,扩展或缩小概念范围

      2)语义查询扩展原理。将检索词匹配的概念集合C={Ci|iN}作为检索条件,关系RmmN)是概念C与其他概念的语义关系,则通名概念Ci的扩展概念可定义为Cik={Ck|RmCkCi)或RmCiCk),iNkN},其中Rm包含概念相似关系、对象属性关系、概念层次关系。如“牛栏山镇客运火车站”匹配“客运火车站”通名概念,通过概念层次关系扩展可提取“火车站”和“交通运输仓储”概念。

      同时,根据概念相似关系可获得“交通运输附属设施”概念,此外通过对象属性关系提取“客运火车站”和“火车站”概念对应的类别编码,即“230107”和“230103”(见图 5)。语义查询扩展获取了地理实体隐含的语义知识,进而以概念和扩展概念形成的概念集合作为后续语义知识和关系数据库映射的基础。

      图  5  语义查询扩展实例

      Figure 5.  Semantic Expansion Example

    • OBDA技术中,语义知识和关系数据库映射通过本体的语义知识构建SQL语句,描述地理空间数据库存储模式和本体概念属性的关系,是实现地理空间数据库检索的桥梁[4]

    • 相比于传统关系数据库采用实体-联系图描述数据语义信息,建立映射可将关系数据库设计过程的静态语义信息转换为伴随系统运行的动态语义知识[2],一般形式化定义为ΨO)→ΦS),其中,ΨO)指面向本体O概念视图的检索信息,ΦS)是对数据库S的SQL查询语句。本文通过语义信息建立数据库与本体的映射关系,获取地理空间数据库表名、属性字段和类型信息,理解关系数据库的存储方式。参照关系数据库和资源描述框架映射语言(RDB to RDF mapping language,R2RML),设计本体和地理空间数据库的映射规则,具体如表 2所示。

      表 2  本体和地理空间数据库的映射规则

      Table 2.  Mapping Rules for Ontology and GeospatialDatabases

      映射标签 映射关系描述
      MappingToTable 本体概念对应数据库表
      MappingToField 本体概念对应数据库表的属性字段
      hasProperty 本体中数据库表和属性字段对应概念的关联关系
    • 映射M基于本体概念和属性等语义知识理解检索词的背景信息,通过概念和属性字段信息的表示、映射关系的建立、SQL语句的自动构建3个步骤实现地理空间数据快速检索。

      1)概念与属性信息表示。地理空间数据库通常为关系型结构,由表和列的定义以及数据的完整性约束组成。如地理空间数据库的“交通运输仓储”图层存储桥梁、火车站等地理要素,包含名称、地址和类型等属性字段(见图 6)。其中,表名与本体概念、属性字段与本体属性值等信息在OBDA系统内的表示方式如表 3所示。

      图  6  地理空间数据库实例

      Figure 6.  Geospatial Database Example

      表 3  OBDA系统信息表示方式

      Table 3.  Information Representation in OBDA

      类型 关系数据库信息表示 本体信息表示
      表名与本体概念 {x|交通运输仓储(x)} {x|交通运输附属设施(x)}
      属性字段与本体属性值 {x|Name(x)} {x|名称(x)}
      {x|Kind(x)} {x|类型(x)}

      2)映射关系构建。以概念和属性的信息表示方式为基础,OBDA可以表示本体与地理空间数据库的对应关系,本文采用“⊆”和“∃”等描述逻辑规则表示概念的父子关系和存在关系,m1m2m6对应描述逻辑声明的映射关系表示为:

      m1:交通运输附属设施⊆∃Mapping- ToTable.交通运输仓储;

      m2:名称⊆∃MappingToFiled.Name;

      m3:类型⊆∃MappingToFiled.Kind;

      m4:交通运输附属设施⊆∃hasProperty.名称;

      m5:交通运输附属设施⊆∃hasProperty.类型;

      m6:火车站⊆∃ hasProperty.类型∩(类型(“230103”)∪…)。

      采用MappingToTable标签表示本体概念到地理空间数据库图层信息的转换关系,如m1表示本体概念“交通运输附属设施”和表名“交通运输仓储”的映射关系。通过MappingToFiled标签表示本体概念到数据库属性字段的映射关系,如m2m3表示本体属性信息“名称”和“类型”与属性字段“Name”和“Kind”的映射关系。同时通过hasProperty标签表示本体概念和属性描述信息的关联,如m4m5表示本体概念“交通运输附属设施”拥有“名称”和“类型”两个属性描述信息。此外,地理实体的具体类型信息可通过hasProperty和概念类型的实例值表示,如结合语义查询扩展获取的“火车站”与“交通运输附属设施”概念层次关系,m6表示本体概念“火车站”是类型值为“230103”的“交通运输附属设施”。

      3)SQL语句构建。OBDA通过描述逻辑声明的映射关系,将本体层面虚拟视图表达的查询信息转换为可以直接在关系数据库执行的SQL查询语句。本文以概念关联的属性关系为基础,基于语义知识和关系数据库映射获取检索语句涉及的表名和属性字段;通过类型实例和检索词构建SQL语句,实现地理空间数据的快速检索(见图 7)。

      图  7  构建SQL检索语句的逻辑关系

      Figure 7.  Building SQL Retrieval Statements on Logical Relationships

      例如,检索“牛栏山镇客运火车站”,通过MappingToTable、MappingToField映射标签获取“交通运输仓储”表名与“Name”“Kind”两个属性字段名称。通过父概念和hasProperty映射标签获取“230103”类型实例信息,并结合检索词构建“Select * From交通运输仓储Where Kind=‘230103’ AND Name LIKE ‘%牛栏山镇客运火车站’”检索语句。

    • 为验证方法的可行性,本文以语义查询扩展、语义知识和关系数据库映射为基础,通过原型系统的多视图联动窗口展示地理空间数据检索结果,并与常规检索方法进行对比,结果表明该方法可有效提高地理空间数据检索的效率和质量。

    • 本文以四维图新导航电子地图(https://www.navinfo.com)交通运输仓储和高速公路图层为实验数据源,含有火车站、铁路桥和高速公路等39类地理实体。

      1)地理空间数据常规检索。用户输入待检索的地名后,常规检索方法根据用户指定的地理空间数据图层和检索属性字段等信息构建SQL语句,执行检索操作并返回检索结果。若未指定图层等附加信息,则无法理解用户的查询意图,难以构建SQL语句。

      2)地理空间数据快速检索。根据用户输入的检索词提取通名并获得对应概念,基于本体概念和属性关系扩展检索词的语义信息,通过映射获取关系数据库和语义知识的对应关系,自动构建SQL语句检索数据库并返回结果。如用户检索“郑州火车站”,以分离的通名“火车站”为基础,首先根据通名获取“火车站”本体概念;然后通过等同关系、父子关系和属性信息进行语义查询扩展,获取“火车站”“交通运输附属设施”“名称”和“类型”等概念集合,以及“230103”“230107”和“230112”火车站类型实例信息;最后通过映射获取地理空间数据库的表名和字段名,即“交通运输仓储”“Name”和“Kind”等信息,进而构建SQL语句(Select * From交通运输仓储Where(Kind=‘230103’ OR Kind=‘230107’ OR Kind=‘230112’)AND Name LIKE “%郑州火车站”),并在GIS平台以多视图联动方式展示检索结果(见图 8)。

      图  8  地理空间数据检索结果

      Figure 8.  Retrieval Results for Geospatial Data

    • 检索时间可衡量系统的性能优劣[31],系统底层字符串匹配通过关系数据库SQL语言的LIKE语句实现,因此可将本文方法与常规SQL检索的效率进行对比,作为评判检索性能的标准。常规检索仅通过LIKE语句检索指定名称地理要素,其时间复杂度为ON),N为当前图层的地理要素数目,经测试,常规方法检索某一要素需耗时650 ms左右。本文方法通过检索词的潜在语义信息提取类别编码,并通过地物类别信息细化过滤语句。故实际检索的时间复杂度为O(lgQ)+OM),Q为当前图层的要素类别数目,M为待匹配类型的要素数目,二者均远小于N,检索效率远高于常规检索,不同类型地理要素的检索效率如表 4所示。以检索火车站相关数据为例,常规检索的过滤语句为“Where Name LIKE ‘%郑州火车站’”,顾及语义知识的过滤语句增加了类别信息,系统自动构建过滤语句为“Where(Kind=‘230103’OR Kind=‘230107’OR Kind=‘230112’)AND Name LIKE “%郑州火车站””,仅需50 ms,检索效率得到了显著提升。

      表 4  检索结果效率统计

      Table 4.  Statistics of Experimental Results

      实验次数 检索概念(实例) 特定类型地理要素数量/个 平均效率/ms
      常规检索 快速检索
      1 大桥(胶州湾大桥) 47 028 654 325
      2 火车站(郑州火车站) 6 276 647 50
      3 充电站(郑州东方国际广场充电站) 14 276 650 208
      4 收费站(郑州新区收费站) 27 865 648 51
    • 质量标准可通过检全率R和检准率P两个指标进行评价[32]。为准确客观地评估检索质量,本文引入调和平均数F弥补检全率和检准率的互逆关系。计算公式为:

      R=×100%
      P=×100%
      F=2×R×PR+P

      本节对地理实体存在于不同或单一地理空间数据图层等情况展开实验对比,快速检索方法和用户指定图层AB的常规方法检索结果如表 5所示(图层AB分别表示高速公路和交通运输仓储图层)。其中,当地理实体存在于不同图层时,常规检索与本文方法均依赖SQL语句匹配,因此检准率皆可达到100%,但常规方法需指定图层,而本文方法可以根据通名和已构建的语义知识库检索多个图层,将检全率提高至100%(如检索珠港立交桥,本文将检全率由97.5%和2.5%提高至100%)。此外,当地理实体存在于单一图层时,若用户指定的图层不含有该实体,则常规检索无法获取结果,但本文方法可根据通名和语义知识库自动构建检索语句,进而获得检索结果(如表 5检索郑州火车站与连霍高速公路)。

      表 5  检索质量对比分析实例

      Table 5.  Comparative Analysis of Retrieval Quality

      实验类型 检索词 图层A地理要素数量/个 图层B地理要素数量/个 快速检索方法 常规检索(图层A 常规检索(图层B
      检全率/% 检准率/% F 检全率/% 检准率/% F 检全率/% 检准率/% F
      地理实体存在于不同图层 珠港立交桥 39 1 100 100 1 97.5 100 0.98 2.5 100 0.04
      地理实体存在于单一图层 郑州火车站 0 1 100 100 1 0 0 0 100 100 1
      连霍高速公路 10 344 0 100 100 1 100 100 1 0 0 0
    • 顾及语义知识的地理空间数据快速检索系统既可简化检索过程,提高检索效率,又能提高检索质量,为地理空间数据的组织和访问提供良好的运行机制。但传统地理空间数据检索需要了解数据库的存储结构,同时现有OBDA系统缺乏特定地理空间数据集的语义知识。本文基于OBDA技术提出了面向地理空间数据的快速检索方法,以地名分类规则、地理空间数据和开源百度百科数据集为基础构建语义知识库,进而基于语义查询扩展、语义知识和关系数据库映射实现地理空间数据的快速检索。并通过实例应用以及效率、质量对比证明该方法能够通过地理实体名称自动构建SQL检索语句,获取检索结果。由于地理空间数据存在特有的空间关系,语义知识库和检索系统需进一步考虑要素间的拓扑关系。同时如何基于本体的自定义规则检索并返回更符合用户需求的地理空间数据也将是后续的研究重点。

参考文献 (32)

目录

    /

    返回文章
    返回