留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

面向一体化综合减灾的知识图谱构建方法

陶坤旺 赵阳阳 朱鹏 朱月月 刘帅 赵习枝

陶坤旺, 赵阳阳, 朱鹏, 朱月月, 刘帅, 赵习枝. 面向一体化综合减灾的知识图谱构建方法[J]. 武汉大学学报 ● 信息科学版, 2020, 45(8): 1296-1302. doi: 10.13203/j.whugis20200125
引用本文: 陶坤旺, 赵阳阳, 朱鹏, 朱月月, 刘帅, 赵习枝. 面向一体化综合减灾的知识图谱构建方法[J]. 武汉大学学报 ● 信息科学版, 2020, 45(8): 1296-1302. doi: 10.13203/j.whugis20200125
TAO Kunwang, ZHAO Yangyang, ZHU Peng, ZHU Yueyue, LIU Shuai, ZHAO Xizhi. Knowledge Graph Construction for Integrated Disaster Reduction[J]. Geomatics and Information Science of Wuhan University, 2020, 45(8): 1296-1302. doi: 10.13203/j.whugis20200125
Citation: TAO Kunwang, ZHAO Yangyang, ZHU Peng, ZHU Yueyue, LIU Shuai, ZHAO Xizhi. Knowledge Graph Construction for Integrated Disaster Reduction[J]. Geomatics and Information Science of Wuhan University, 2020, 45(8): 1296-1302. doi: 10.13203/j.whugis20200125

面向一体化综合减灾的知识图谱构建方法

doi: 10.13203/j.whugis20200125
基金项目: 

国家重点研发计划 2016YFC0803108

国家重点研发计划 2019YFB2102503

中央引导地方科技发展专项资金项目 [2016]4009

详细信息
    作者简介:

    陶坤旺,副研究员,主要从事地理信息分析及应用研究。taokw@casm.ac.cn

    通讯作者: 赵阳阳,博士,助理研究员。zhaoyy@casm.ac.cn
  • 中图分类号: P208

Knowledge Graph Construction for Integrated Disaster Reduction

Funds: 

The National Key Research and Development Program of China 2016YFC0803108

The National Key Research and Development Program of China 2019YFB2102503

Central Leading Local Science and Technology Development Special Foundation [2016]4009

More Information
    Author Bio:

    TAO Kunwang, associate professor, specializes in geographic information analysis and application.taokw@casm.ac.cn

    Corresponding author: ZHAO Yangyang, PhD, assistant researcher.zhaoyy@casm.ac.cn
图(5)
计量
  • 文章访问数:  1471
  • HTML全文浏览量:  302
  • PDF下载量:  246
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-03-29
  • 刊出日期:  2020-08-05

面向一体化综合减灾的知识图谱构建方法

doi: 10.13203/j.whugis20200125
    基金项目:

    国家重点研发计划 2016YFC0803108

    国家重点研发计划 2019YFB2102503

    中央引导地方科技发展专项资金项目 [2016]4009

    作者简介:

    陶坤旺,副研究员,主要从事地理信息分析及应用研究。taokw@casm.ac.cn

    通讯作者: 赵阳阳,博士,助理研究员。zhaoyy@casm.ac.cn
  • 中图分类号: P208

摘要: 知识图谱是揭示实体及其相互之间关系的重要工具,其在应急减灾中发挥着越来越重要的作用。研究了面向一体化综合减灾的知识图谱构建方法。首先,介绍了知识图谱的相关概念,分析了知识图谱在应急减灾工作中的应用;然后,总结了面向一体化综合减灾的知识图谱构建流程和关键技术,关键技术主要包括知识抽取、信息融合、知识建模和知识存储;随后,以九寨沟地震为例展示了面向九寨沟地震减灾的知识图谱构建过程、构建结果,并介绍了知识图谱在应用减灾信息主动推送方面的应用;最后,总结了知识图谱应用于一体化综合减灾领域所面临的挑战。

English Abstract

陶坤旺, 赵阳阳, 朱鹏, 朱月月, 刘帅, 赵习枝. 面向一体化综合减灾的知识图谱构建方法[J]. 武汉大学学报 ● 信息科学版, 2020, 45(8): 1296-1302. doi: 10.13203/j.whugis20200125
引用本文: 陶坤旺, 赵阳阳, 朱鹏, 朱月月, 刘帅, 赵习枝. 面向一体化综合减灾的知识图谱构建方法[J]. 武汉大学学报 ● 信息科学版, 2020, 45(8): 1296-1302. doi: 10.13203/j.whugis20200125
TAO Kunwang, ZHAO Yangyang, ZHU Peng, ZHU Yueyue, LIU Shuai, ZHAO Xizhi. Knowledge Graph Construction for Integrated Disaster Reduction[J]. Geomatics and Information Science of Wuhan University, 2020, 45(8): 1296-1302. doi: 10.13203/j.whugis20200125
Citation: TAO Kunwang, ZHAO Yangyang, ZHU Peng, ZHU Yueyue, LIU Shuai, ZHAO Xizhi. Knowledge Graph Construction for Integrated Disaster Reduction[J]. Geomatics and Information Science of Wuhan University, 2020, 45(8): 1296-1302. doi: 10.13203/j.whugis20200125
  • 知识图谱(knowledge graph,KG)的本质是一种揭示实体间关系的语义网络,可以对事物及其之间的相互关系进行形式化的描述[1],其概念由谷歌公司于2012年5月正式提出[2]。知识图谱最初主要用于科学文献的可视化描述,后逐渐应用于搜索引擎的优化,并扩展到其他创新应用。随着计算机技术的发展和信息服务内容的丰富,知识图谱已经在学术和工业界都普及开来,在智能检索、智能问答、风控系统、医疗领域、智能推荐系统等应用中发挥着重要的作用[3]

    应急减灾也是知识图谱应用较广的重要领域之一。随着相关技术和体系的不断完善,应急减灾逐步向一体化综合发展。一体化综合减灾是指面对复杂灾害时,不同的部门、系统之间通过信息共享和业务协同智能地进行灾情的感知、分析及处置。实现一体化综合减灾,需要各相关部门在灾害后迅速掌握灾害发生的地点、范围、人员伤亡、房屋损毁等情况,还需要消防、市政、卫生、交通等部门的合作,快速制定应急处置方案。信息来源广泛、种类多、数量大、格式不统一,给数据的快速收集、融合、关联、网络传输和分析都带来巨大的挑战。同时,海量数据中真正有用的数据并不多,重要信息容易被垃圾信息淹没[4]。知识图谱在处理和展示多源异构数据方面具有巨大优势,知识图谱的引入有助于一体化综合减灾相关数据的快速收集、融合和关联。此外,在人工智能、云计算等新技术的带动下,知识图谱在一体化综合减灾中发挥的作用日益突出。本文以现有研究为基础,对知识图谱在应急减灾领域的构建流程和应用情况进行总结和剖析。

    • 知识图谱以网络结构描述实体、概念、事件及其之间的关系。其中,实体是指现实世界中的具体事物,如某栋建筑、某个医院;概念是指对客观事物概念化的表示,如房屋、组织机构;事件是指客观发生的事件,如洪水、地震;关系是指概念、实体、事件相互之间客观存在的关系,如“救灾相关部门”概念与“民政部”实体存在包含关系[5]。在知识图谱中,通常用节点表示实体、概念和事件,用边表示关系,知识图谱示意图如图 1所示。

      图  1  知识图谱示意图

      Figure 1.  Diagram of Knowledge Graph

    • 知识图谱在一体化综合减灾中可以实现多源异构数据的快速汇聚,有序地组织各相关部门的数据[6]。按照一定规则建立知识图谱,在灾害发生时,将数据基于知识图谱进行汇聚、融合、存储,有效地将数据进行集成,有助于快速获取有用的信息[4, 7-8]

      例如,文献[7]梳理了决策者、普通公众、现场救援人员对应急管理知识的需求特征,建立集常识支持库、事实经验库和推理知识库为一体的应急情报管理体系知识库集群。文献[9]利用知识图谱建立了基于事件的语义搜索引擎,支持针对包括自然灾害事件在内的重大突发事件的结构化和非结构化知识查询。

    • 灾害的发生往往不是独立存在的,而是相互之间存在复杂的链式效应[10]。灾害应急救援涉及社会的方方面面,通常由多个主体共同参与。知识图谱可以在应急救援相关的社会领域之间建立关系,揭示不同领域、不同社会实体之间以及实体与数据资源和灾害事件之间的交叉网络关系。在灾害发生后,可以协助相关部门快速找到与之有关联的不同社会领域,快速完成应急救援相关的协同响应。

      例如,文献[10]定义了灾害链相关的概念、属性和关系,用于分析多个灾害之间的关系;文献[11]利用知识图谱分析了2015年尼泊尔地震救援工作的进行情况,评判了救援工作是否按照政策制定者和公共管理人员的计划进行。

    • 互联网和社交媒体数据越来越成为应急减灾的重要数据来源[12-13]。发布在微博、推特等媒体平台的数据能够反映官方媒体以外的网络信息,如受灾地点、受灾程度等,相较于传统灾害信息,具有时效性强、信息量大等优势[14]。利用知识图谱可以更加高效地提取和利用互联网和社交媒体数据。

      例如,文献[15]从新闻报道中提取规范化事件,在考虑文本内容、实体出现及出现时间的情况下将报道同一灾害事件的新闻进行归集,建立多个新闻事件的知识图谱层级结构;文献[16]从推特中提取信息,构建实时动态的灾害事件知识图谱,并应用于对不断发展的灾害事件的跟踪。GDELT数据库[17]中的全球知识图谱(the global knowledge graph,GKG)记录了每则新闻报道中的事件、数字、人员、位置、主题、情感、相关图像、视频和社交媒体消息等相关信息,不仅可以用于跟踪灾害中的伤亡人数、影响人数等信息,还可以用于分析灾害事件的关联及组织间的交互行为。

    • 一体化综合减灾所需数据主要包括居民点、人口、交通网等基础数据,地形、地貌、植被、河流、湖泊等自然地理信息数据,主要防护目标、重大危险源等重点对象数据,避难场所、救援物资、医院等应急救援数据,救灾现场数据,社交媒体数据,以及分析预测模型、应急预案、历史案例等结构化、半结构化和非结构化多源异构数据。

      构建流程如图 2所示:首先,对多源异构数据进行处理;然后,根据应用场景从数据中抽取实体和关系等知识,并对各类知识进行融合;最后,进行知识建模并存入知识库,形成知识图谱。

      图  2  知识图谱构建流程

      Figure 2.  Construction Process of Knowledge Graph

    • 知识抽取是指从来自各个信息源的信息中抽取有用的信息单元,以供进一步分析利用,包括实体抽取、关系抽取和属性抽取。通用知识抽取方法包括专家法、众包法、爬虫法和机器学习方法[18]。由于应急救援专业性强、所需知识权威性高、涉及多种保密信息,并且对准确性有着极高的要求,因此知识主要来源于现有权威数据源以及地方和现场救援人员上报信息。鉴于以上特征,应急减灾领域的知识抽取仍以专家法为主,即根据专家的经验从多源数据中抽取有用的知识,包括结构化、半结构化和非结构化的知识,如图 3所示。例如,文献[5]根据地震震情基本信息,抽取出地震中心定位信息、震级强度、涉及区域、房屋受损等情况,进一步抽取出专业应急救援人员数量、应急资源需求、灾区道路等信息,同时掌握当地的地形地貌、水文、气象等条件,以及当地救援物资、资金调拨数量等。

      图  3  知识抽取示意图

      Figure 3.  Diagram of Knowledge Extraction

      同时,也有学者提出了自动进行知识抽取的方法,如文献[19]提出了针对灾害应急任务和相关数据的多级语义映射方法,在应急任务需求和灾害数据特征之间建立映射关系,为从海量数据中自动发现优势数据集提供理论基础。

      近年来,互联网数据逐渐成为新的应急减灾数据源,很多学者利用爬虫技术爬取相关网页,并利用自然语言处理的方法从网页中提取灾害位置、受灾人数等信息。

    • 信息融合的目的是对多源异构的知识进行集成,优化知识的结构,获取隐含的新知识,形成对目标的一致性解释和描述[20-21]。针对一体化综合减灾系统涉及的多源异构数据,信息融合不仅需要数据格式上的转换,还需要达成内容涵义上的一致性。目前,应急减灾领域多采用信息融合框架或模型对多源异构信息进行融合。文献[20]设计了一种分层协调方案,将信息融合任务分为数据录入、数据整理、关联性分析3个步骤,构造灾情视图并从中提取特征信息,最终进行多特征融合对灾情进行判断。

      信息融合中,又以新知识与现有知识图谱融合方法的研究为重点。如文献[8]建立了知识图谱,通过对抽取的实体、属性和关系三元组与已构建的知识图谱进行语义相似度计算,确定最优概念匹配和关系匹配,实现信息融合;文献[19]提出了渐进求精的灾害信息聚合方法,将传统的“多关键字+硬匹配”的数据检索模式改进为逐级递进式地筛选与过滤流程,从海量信息中主动选择适合任务执行的精准数据集,降低了人工干预度。

    • 知识建模指的是建立数据模型来表达知识,主要有自顶而下和自底而上两种构建方式[21]。其中,自顶而下指的是先借助专家知识和现有的基础知识库定义本体与数据模式,从最顶层开始定义,然后逐步细化,最后将实体和数据资源加入到知识库;自底而上指的是先从数据中提取出实体,再采用一定的方法逐层向上进行归纳和组织,构建知识图谱。由于应急救援专业性强、对准确性要求极高,因此在一体化综合减灾知识图谱的构建中多采用自顶而下的手工建模方法。面向一体化减灾的手工建模步骤如图 4所示。

      图  4  知识图谱手工建模步骤

      Figure 4.  Manual Modeling Process of Knowledge Graph

    • 知识存储指的是对知识图谱中的各类知识进行存储,包括属性、关联、事件、数据资源等[22]。通常来说,知识存储主要有基于表结构的存储和基于图结构的存储这两种存储方式,分别对应关系型数据库和图数据库。其中,常用的关系型数据库包括Microsoft SQL Server、Oracle、MySQL等,图数据库包括Neo4j、Microsoft Azure Cosmos DB、OrientDB等。此外,对于一体化综合减灾来说,地理空间数据和遥感数据也是重要的数据来源,其存储需要用到ArcSDE、Oracle Spatial等地理空间数据库。

      基于表结构的存储对应的增加、删除、修改、查询的操作开销大,效率相比基于图结构的存储较低。目前主流的图结构存储模型为资源描述框架(resource description framework,RDF),RDF使用统一的标准描述实体。RDF知识三元组主语、谓语、宾语对应实体、属性、属性值。RDF三元组也可以扩展为内容更丰富的六元组:主语、谓语、宾语、时间、地点、附加信息。对于一体化综合减灾来说,应急减灾数据量大且数据更新快,而基于RDF存储的知识图谱支持对大规模数据的有效管理具有很好的通用性和灵活性。

    • 以九寨沟地震为例,采用自顶而下的手工建模方法构建知识图谱。首先,通过分析地震场景抽取实体和关系,建立起本体模型;然后,将数据资源经过知识抽取与知识融合形成知识图谱,存入知识库。图 5展示了九寨沟地震中一体化综合减灾知识图谱的部分结构。图 5中,need表示需要关系,has表示包括关系。其中,基础地理对象是虚拟地理环境的重要组成部分,如房屋、车站、地形、交通网等;应急管理对象表示抢险救灾密切关注的场景对象,如避难场所、医疗点、救援物资、救援路线等;次生灾害对象指由地震引起的各种二次灾害的场景对象,如泥石流、堰塞湖、崩塌、爆炸等;灾情对象指表现地震灾情的场景对象,如受损建筑、经济损失、死亡人口、失踪人口等;灾害对象指与震情相关的场景对象,如发震时刻、震源深度、震中位置、余震等。地震发生后,不同用户对信息获取的需求不同,系统的主要用户包括为应急管理用户、公众用户和应急救援用户3类,知识图谱在用户与所需信息之间也建立了联系。

      图  5  九寨沟地震知识图谱

      Figure 5.  Knowledge Graph for Jiuzhaigou Earthquake

    • 利用知识图谱实现对不同用户的信息智能推送。应急管理用户重点关注受损建筑、受灾人口、救援路线、救援物资等,主要从宏观层面把控整个地震灾情;普通用户主要关注余震、发震时刻等与切身相关的信息;应急救援用户主要关注医疗点、救援路线、交通网等应急救援信息。知识图谱已建立了用户与所需信息之间的联系,可以基于知识图谱向3类用户推送个性化的信息。

    • 知识图谱在应急减灾领域的应用仍存在一些问题和挑战。

      1)应急减灾领域知识图谱构建的自动化程度不足。由于应急减灾工作对数据资源和实体关系的准确性有着极高的要求,在实体识别、关系抽取等方面仍需大量专家知识的参与,因此目前知识图谱的构建大多采用自顶而下的人工建模方法,这种方法耗时耗力,受主观因素影响较大,对专家知识有着很大的依赖。虽然已有研究采用机器学习等自动化方法创建知识图谱,但其精度有待进一步提升,可靠性有待检验。

      2)海量结构化和非结构化的数据给知识图谱的存储和快速构建带来挑战。大数据时代的到来带来了数据爆炸,海量结构化和非结构化的数据都在实时产生,这对现有数据库的数据存储能力、读写速度、查询速度都构成了巨大挑战,也对知识图谱构建工具的使用带来挑战,亟需采用并行计算、云计算等新技术来提高知识图谱的存储和快速构建能力。

      3)减灾应急领域知识图谱在实际应用中仍存在不足。如何更快掌握灾情状态,提供丰富的灾情信息和应急响应服务;如何有效地统一管理各类地震信息;如何提高对灾害发展趋势的预测精确度,挖掘出灾害的时空格局、演化规律、活动模式和内在机理等,这些问题仍有待进一步拓展和深化。

      知识图谱是揭示实体及其相互之间关系的重要工具,其在应急减灾领域发挥着越来越重要的作用。本文介绍了知识图谱的相关概念,总结了知识图谱在一体化综合减灾中的应用,认为其在快速实现多源异构数据的汇聚、建立多领域间的关系网、高效利用互联网和社交媒体数据方面具有很大优势。本文总结了面向一体化综合减灾的知识图谱构建流程和关键技术(包括知识抽取、知识融合、知识建模和知识存储),并以九寨沟地震的应急救援为例,构建了知识图谱并将其应用于信息的智能推送。最后,对目前知识图谱在应急减灾领域应用所面临的挑战进行了总结。随着人工智能、大数据、云计算、物联网等新技术的出现和发展,知识图谱在应急减灾领域的相关技术将得到更快的发展,其应用范围也将进一步扩展。

参考文献 (22)

目录

    /

    返回文章
    返回