留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

自然灾害应急知识图谱构建方法研究

杜志强 李钰 张叶廷 谭玉琪 赵文豪

杜志强, 李钰, 张叶廷, 谭玉琪, 赵文豪. 自然灾害应急知识图谱构建方法研究[J]. 武汉大学学报 ● 信息科学版, 2020, 45(9): 1344-1355. doi: 10.13203/j.whugis20200047
引用本文: 杜志强, 李钰, 张叶廷, 谭玉琪, 赵文豪. 自然灾害应急知识图谱构建方法研究[J]. 武汉大学学报 ● 信息科学版, 2020, 45(9): 1344-1355. doi: 10.13203/j.whugis20200047
DU Zhiqiang, LI Yu, ZHANG Yeting, TAN Yuqi, ZHAO Wenhao. Knowledge Graph Construction Method on Natural Disaster Emergency[J]. Geomatics and Information Science of Wuhan University, 2020, 45(9): 1344-1355. doi: 10.13203/j.whugis20200047
Citation: DU Zhiqiang, LI Yu, ZHANG Yeting, TAN Yuqi, ZHAO Wenhao. Knowledge Graph Construction Method on Natural Disaster Emergency[J]. Geomatics and Information Science of Wuhan University, 2020, 45(9): 1344-1355. doi: 10.13203/j.whugis20200047

自然灾害应急知识图谱构建方法研究

doi: 10.13203/j.whugis20200047
基金项目: 

国家自然科学基金 41971347

国家重点研发计划 2017YFC1502902

详细信息
    作者简介:

    杜志强,博士,副教授,主要从事虚拟地理环境与灾害信息服务研究。duzhiqiang@whu.edu.cn

    通讯作者: 赵文豪,博士,高级工程师。zhaowh@ngcc.cn
  • 中图分类号: P208

Knowledge Graph Construction Method on Natural Disaster Emergency

Funds: 

The National Natural Science Foundation of China 41971347

the National Key Research and Development Program of China 2017YFC1502902

More Information
    Author Bio:

    DU Zhiqiang, PhD, associate professor, specializes in the VGE and disaster information service. E-mail: duzhiqiang@whu.edu.cn

    Corresponding author: ZHAO Wenhao, PhD, senior engineer. E-mail: zhaowh@ngcc.cn
  • 摘要: 中国自然灾害发生频繁,受自然灾害的威胁极大,防灾减灾、抗灾救灾是人类生存发展的永恒课题。在自然灾害应急领域中,相关数据骤增而应急关键知识明显匮乏,存在“数据-信息-知识”转化能力不足的问题,由此提出了自顶向下和自底向上相结合的自然灾害应急知识图谱构建方法。围绕自然灾害事件、灾害应急任务、灾害数据、模型方法4个要素,自顶向下构建模式层,通过本体建模形成知识图谱的概念框架;自底向上构建数据层,通过数据获取、知识抽取、融合、存储建立实体间关联关系。以洪涝灾害应急知识图谱为例进行实验验证,结果表明,该方法能够对自然灾害事件、灾害应急任务、灾害数据、模型方法4要素的概念层次关系及要素属性、要素间语义关联关系进行形式化表达,实现了从多源数据到互联知识的转化。
  • 图  1  自然灾害应急知识图谱构建流程

    Figure  1.  Construction Process of Knowledge Graph in Natural Disaster Emergency Field

    图  2  本体之间语义关联关系

    Figure  2.  Semantic Association Between Ontologies

    图  3  洪涝灾害应急知识图谱模式层

    Figure  3.  Ontology of Flood Disaster Emergency Knowledge Graph

    图  4  洪涝灾害应急知识图谱数据层(部分)

    Figure  4.  Instance of Flood Disaster Emergency Knowledge Graph(Part)

    表  1  应急任务概念层次

    Table  1.   Levels of Concept for Emergency Tasks

    过程 目标 具体应急任务
    灾前 预警、预防、备灾 风险监测、风险评估、灾害预警等
    灾中 快速反应、应急处置 应急响应级别、灾中快速评估、应急救助资源配置与调度决策、转移安置决策、应急推演等
    灾后 恢复重建、总结评估 灾情综合评估、恢复重建效果评估等
    下载: 导出CSV

    表  2  灾害数据语义关系

    Table  2.   Semantic Relationships Between Disaster Data

    名称 量化方法 说明 对应关系
    时间重合度 ${\rm{Overla}}{{\rm{p}}_{T\left( {i, j} \right)}} = \frac{{T\left( i \right)\mathop \cap \nolimits T\left( j \right)}}{{T\left( i \right) \cup T\left( j \right)}}$ T (i)为灾害数据i的时间跨度,T (j)为灾害数据 j的时间跨度,两者的时间范围交集与并集之比则为灾害数据ij之间的时间重合度 OverlapT(i, j)⊆[0, 1],值为0时表示数据间不具有时间关联性;值为(0, 1]时,表示数据间具有时间关联性,值越大,则灾害数据之间的时间关联性越强
    空间重合度 ${\rm{Overla}}{{\rm{p}}_{S\left( {i, j} \right)}} = \frac{{S\left( i \right)\mathop \cap \nolimits S\left( j \right)}}{{S\left( i \right)\mathop \cup \nolimits S\left( j \right)}}$ S (i)为灾害数据i的空间范围,S (j)为灾害数据j的空间范围,两者的空间范围交集与并集之比则为灾害数据ij之间的空间重合度 OverlapS (i, j)⊆[0, 1],值为0时表示数据间不具有空间关联性;值为(0, 1]时,表示数据间具有空间关联性,值越大,则灾害数据之间的空间关联性越强
    数据关联度 ${\rm{Suppor}}{{\rm{t}}_{\left( X \right)}} = \frac{k}{n}$ X为一个灾害数据项集,kX在总灾害数据案例集里出现的次数,n为灾害数据案例的总数,则数据项集X的支持度为Support(X)。设置最小支持度阈值,当某项集的支持度值高于该阈值时,则该项集为频繁项集 Confidence(AB)⊆[0, 1],值为0时表示两者不具有关联性;值为(0, 1]时,表示两者之间具有数据关联性,值越大,表示在使用了数据A的条件下,使用数据B的概率越大,数据关联性越强
    ${\rm{Confidenc}}{{\rm{e}}_{\left( {A \to B} \right)}} = \\ \frac{{{\rm{Suppor}}{{\rm{t}}_{\left( {A\mathop \cup \nolimits B} \right)}}}}{{{\rm{Suppor}}{{\rm{t}}_{\left( A \right)}}}}$ 若灾害数据A在某一项集中出现,且在同样项集中一定存在灾害数据B,可将两者的关联规则表示为:AB,规则AB的置信度为Confidence(AB)
    下载: 导出CSV

    表  3  模型方法实体识别实验结果

    Table  3.   Results of Method Entity Recognition Based on CRF

    特征选择 滑动窗口大小 准确率/% 召回率/% F度量
    单字 1 91.43 59.41 72.02
    单字 2 92.14 59.84 72.55
    单字 3 93.75 55.16 69.45
    单字+词性 2 91.81 59.19 71.90
    下载: 导出CSV

    表  4  模型方法实体匹配规则

    Table  4.   Matching Rules of Method Entity

    前缀词 中间连接词 后缀词
    采用
    应用
    运用
    利用
    提出



    及其
    以及
    方法
    算法
    函数
    模型
    技术
    下载: 导出CSV

    表  5  不同方法实体识别对比

    Table  5.   Comparison with Different Methods of Entity Recognition

    方法 准确率/% 召回率/% F度量
    CRF 92.14 59.84 72.55
    规则匹配 68.13 82.65 74.69
    CRF+规则匹配 79.76 88.02 83.69
    下载: 导出CSV

    表  6  知识融合前后对比

    Table  6.   Differences Between Comparison Before and After Knowledge Fusion

    融合前 融合后
    小波分析,小波分析方法,小波变换方法 小波分析方法
    聚类分析,层次聚类分析方法,聚类分析方法 层次聚类分析方法
    城市洪涝模型,洪涝仿真模型,洪涝模拟方法,城市洪涝仿真模型,城市洪涝分析模型,城市洪涝模拟方法,洪涝分析 城市洪涝仿真模型
    下载: 导出CSV

    表  7  洪涝灾害应急知识图谱节点及关系统计数据

    Table  7.   Statistics of Nodes and Relationships in Flood Disaster Emergency Knowledge Graph

    名称 类型 数量
    洪涝灾害事件 节点 523
    应急任务 节点 11
    灾害数据 节点 45
    模型方法 节点 2 475
    起始时间 97
    结束时间 116
    发生地点 125
    致灾因子 38
    灾情信息 125
    对应任务 375
    使用方法 2 600
    输入 7 251
    输出 1 953
    数据关联 9
    下载: 导出CSV
  • [1] 廖永丰, 赵飞, 王志强, 等. 2000—2011年中国自然灾害灾情空间分布格局分析[J].灾害学, 2013, 28(4): 55-60 http://d.wanfangdata.com.cn/Periodical/zhx201304011

    Liao Yongfeng, Zhao Fei, Wang Zhiqiang, et al. Spatial Pattern Analysis of Natural Disasters in China from 2000 to 2011[J]. Journal of Catastrophology, 2013, 28(4): 55-60 http://d.wanfangdata.com.cn/Periodical/zhx201304011
    [2] 刘哲, 张鹏, 刘南江, 等. "一带一路"中国重点区域自然灾害特征分析[J].灾害学, 2018, 33(4): 68-74 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zhx201804013

    Liu Zhe, Zhang Peng, Liu Nanjiang, et al. Characteristics of Natural Disasters in Key Regions of One-Belt-One-Road Initiative[J]. Journal of Catastrophology, 2018, 33(4): 68-74 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zhx201804013
    [3] 赵珊珊, 高歌, 黄大鹏, 等. 2004—2013年中国气象灾害损失特征分析[J].气象与环境学报, 2017, 33(1): 101-107 http://www.cnki.com.cn/Article/CJFDTOTAL-LNQX201701014.htm

    Zhao Shanshan, Gao Ge, Huang Dapeng, et al. Characteristics of Meteorological Disaster Losses in China from 2004 to 2013[J]. Journal of Meteorology and Environment, 2017, 33(1): 101-107 http://www.cnki.com.cn/Article/CJFDTOTAL-LNQX201701014.htm
    [4] 朱建章, 石强, 陈凤娥, 等.遥感大数据研究现状与发展趋势[J].中国图象图形学报, 2016, 21(11): 1 425-1 439 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zgtxtxxb-a201611002

    Zhu Jianzhang, Shi Qiang, Chen Feng'e, et al. Research Status and Development Trends of Remote Sensing Big Data[J]. Journal of Image and Graphics, 2016, 21(11): 1 425-1 439 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zgtxtxxb-a201611002
    [5] Sowa J F. Principles of Semantic Networks: Exploration in the Representation of Knowledge[M]. San Mateo: Morgan Kaufmann, 1991: 135-157
    [6] Gruber T R. A Translation Approach to Portable Ontology Specifications[J]. Knowledge Acquisition, 1993, 5(2): 199-220 doi:  10.1006/knac.1993.1008
    [7] 袁国铭, 李洪奇, 樊波.关于知识工程的发展综述[J].计算技术与自动化, 2011, 30(1): 138-143 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjsyzdh201101033

    Yuan Guoming, Li Hongqi, Fan Bo. Survey on Development of Knowledge Engineering System[J]. Computing Technology and Automation, 2011, 30(1): 138-143 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjsyzdh201101033
    [8] Dong X, Gabrilovich E, Heitz G, et al. Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion[C]. The 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, USA, 2014
    [9] 刘峤, 李杨, 段宏, 等.知识图谱构建技术综述[J].计算机研究与发展, 2016, 53(3): 582-600 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjyjyfz201603008

    Liu Qiao, Li Yang, Duan Hong, et al. Knowledge Graph Construction Techniques[J]. Journal of Computer Research and Development, 2016, 53(3): 582-600 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjyjyfz201603008
    [10] 徐增林, 盛泳潘, 贺丽荣, 等.知识图谱技术综述[J].电子科技大学学报, 2016, 45(4): 589-606 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=dzkjdxxb201604013

    Xu Zenglin, Sheng Yongpan, He Lirong, et al. Review on Knowledge Graph Techniques[J]. Journal of University of Electronic Science and Technology of China, 2016, 45(4): 589-606 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=dzkjdxxb201604013
    [11] Sören A, Bizer C, Kobilarov G, et al. DBpedia: A Nucleus for a Web of Open Data[J]. The Semantic Web, 2007, 4 825: 722-735
    [12] Bollacker K D, Evans C, Paritosh P, et al. Freebase: A Collaboratively Created Graph Database for Structuring Human Knowledge[C]. The ACM International Conference on Management of Data, Vancouver, BC, Canada, 2008
    [13] Denny V, Markus K. Wikidata: A Free Collaborative Knowledgebase[J]. Communications of the ACM, 2014, 57(10): 78-85 doi:  10.1145/2629489
    [14] Hoffart J, Suchanek F M, Berberich K, et al. YAGO2: A Spatially and Temporally Enhanced Knowledge Base from Wikipedia[J]. Artificial Intelligence, 2013, 194(4): 28-61 http://www.sciencedirect.com/science/article/pii/S0004370212000719
    [15] 陈大值.知识图谱在银行业的应用场景及可行性研究[J].中国金融电脑, 2019, 355(2): 33-37 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zgjrdn201902007

    Chen Dazhi. Application Scenario and Feasibility Study of Mapping Knowledge Domain in Banking Industry[J]. Financial Computer of China, 2019, 355(2): 33-37 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zgjrdn201902007
    [16] 袁凯琦, 邓扬, 陈道源, 等.医学知识图谱构建技术与研究进展[J].计算机应用研究, 2018, 35(7): 15-22 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjyyyj201807002

    Yuan Kaiqi, Deng Yang, Chen Daoyuan, et al. Construction Techniques and Research Development of Medical Knowledge Graph[J]. Application Research of Computers, 2018, 35(7): 15-22 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjyyyj201807002
    [17] 魏奇锋, 唐川, 赵长轶.国内知识链研究的知识图谱分析[J].情报科学, 2016, 34(7): 7-13 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=qbkx201607002

    Wei Qifeng, Tang Chuan, Zhao Changyi. An Analysis of Knowledge Chain Research in China Based on Knowledge Mapping[J]. Information Science, 2016, 34(7): 7-13 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=qbkx201607002
    [18] 朱杰, 游雄, 夏青.利用作战任务本体计算战场环境要素语义相似性[J].武汉大学学报·信息科学版, 2019, 44(9): 1 407-1 415 doi:  10.13203/j.whugis20170409

    Zhu Jie, You Xiong, Xia Qing. A Semantic Similarity Calculation Method for Battlefield Environment Elements Based on Operational Task Ontology[J]. Geomatics and Information Science of Wuhan University, 2019, 44(9): 1 407-1 415 doi:  10.13203/j.whugis20170409
    [19] 陈军, 刘万增, 武昊, 等.基础地理知识服务的基本问题与研究方向[J].武汉大学学报·信息科学版, 2019, 44(1): 38-47 doi:  10.13203/j.whugis20180441

    Chen Jun, Liu Wanzeng, Wu Hao, et al. Basic Issues and Research Agenda of Geospatial Knowledge Service[J]. Geomatics and Information Science of Wuhan University, 2019, 44(1): 38-47 doi:  10.13203/j.whugis20180441
    [20] 黄海峰, 王世梅, 孙仁先, 等.冰雪灾害条件下地质灾害应急抢险知识库系统研究[J].三峡大学学报(自然科学版), 2010, 32(2): 31-36 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=whsldldxxb-yc201002008

    Huang Haifeng, Wang Shimei, Sun Renxian, et al. Study of Knowledge Base System About Emergency Treatment of Geo-hazard Under Conditions of Ice and Snow Disasters[J]. Journal of China Three Gorges Unibersity(Natural Sciences), 2010, 32(2): 31-36 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=whsldldxxb-yc201002008
    [21] 桂元苗, 王儒敬, 孙丙宇, 等.基于本体的一种自然灾害知识表示方法[J].电子技术, 2010, 47(9): 4-6 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=dzjs201009002

    Gui Yuanmiao, Wang Rujing, Sun Bingyu, et al. Ontology-Based Knowledge Representation Method of Natural Disasters[J]. Electronic Technology, 2010, 47(9): 4-6 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=dzjs201009002
    [22] 王昊中, 毛雪岷.基于OWL的自然灾害领域应急响应知识表示方法[J].计算机系统应用, 2012, 21(4): 207-211 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjxtyy201204045

    Wang Haozhong, Mao Xuemin. Knowledge Representation Based on OWL for Emergency Response in the Field of Natural Disasters[J]. Computer Systems & Applications, 2012, 21(4): 207-211 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjxtyy201204045
    [23] Wang X L, Wu X L. A Novel Knowledge Representation Method Based on Ontology for Natural Disaster Decision-Making[C]. 2012 IEEE International Conference on Computer Science and Automation Engineering (CSAE), Zhangjiajie, China, 2012
    [24] 刘晓慧, 崔健, 蔡菲.突发地质灾害应急响应知识地理本体建模及推理[J].地理与地理信息科学, 2018, 34(4): 1-6 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=7000726891

    Liu Xiaohui, Cui Jian, Cai Fei. Geo-Ontology Modeling and Reasoning of GeoHazard Emergency Response Knowledge[J]. Geography and Geo-Information Science, 2018, 34(4): 1-6 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=7000726891
    [25] 李泽荃, 徐淑华, 李碧霄, 等.基于知识图谱的灾害场景信息融合技术[J].华北科技学院学报, 2019, 16(2): 1-5 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=hbkygdzkxxxb201902002

    Li Zequan, Xu Shuhua, Li Bixiao, et al. Information Fusion Technology of Disaster Scenario Based on Knowledge Graph[J]. Journal of North China Institute of Science and Technology, 2019, 16(2): 1-5 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=hbkygdzkxxxb201902002
    [26] 戎军涛, 王莉英.基于本体的公共危机事件情景模型研究[J].现代情报, 2016, 36(6): 50-55 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=xdqb201606009

    Rong Juntao, Wang Liying. Research on Scenario Model of Public Crisis Events Based on Ontology[J]. Journal of Modern Information, 2016, 36(6): 50-55 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=xdqb201606009
    [27] Sun X Q, Qi L, Sun H, et al. Earthquake Knowledge Graph Constructing Based on Social Intercourse Using BiLSTM-CRF[C]. IOP Conference Series: Earth and Environmental Science, Guangzhou, China, 2020
    [28] Wang Y, Hou X. A Method for Constructing Knowledge Graph of Disaster News Based on Address Tree[C]. The 5th International Conference on Systems and Informatics (ICSAI), Nanjing, China, 2018
    [29] 田董炜, 仇阿根, 张志然.多层次地质灾害领域本体构建与应用[J].测绘科学, 2019, 44(6): 330-336 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=chkx201906049

    Tian Dongwei, Qiu Agen, Zhang Zhiran. Domain Ontology Construction and Application of Multi-level Geological Disasters[J]. Science of Surveying and Mapping, 2019, 44(6): 330-336 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=chkx201906049
    [30] Ni J X, Liu X, Zhou Q F, et al. A Knowledge Graph Based Disaster Storyline Generation Framework[C]. Chinese Control and Decision Conference (CCDC), Nanchang, China, 2019
    [31] 詹勤, 李德仁, 眭海刚, 等.一种遥感信息服务分类本体构建方法[J].武汉大学学报·信息科学版, 2010, 35(3): 343-346 http://ch.whu.edu.cn/article/id/892

    Zhan Qin, Li Deren, Sui Haigang, et al. A Method for Building Remote Sensing Information Services Classification Ontology[J]. Geomatics and Information Science of Wuhan University, 2010, 35(3): 343-346 http://ch.whu.edu.cn/article/id/892
    [32] 张立朝, 潘贞, 王青山, 等.本体驱动的地理信息服务发现模型研究[J].武汉大学学报·信息科学版, 2009, 34(6): 641-645 http://ch.whu.edu.cn/article/id/1344

    Zhang Lichao, Pan Zhen, Wang Qingshan, et al. An Ontology-Driven Discovering Model of Geographical Information Services[J]. Geomatics and Information Science of Wuhan University, 2009, 34(6): 641-645 http://ch.whu.edu.cn/article/id/1344
    [33] 史培军.再论灾害研究的理论与实践[J].自然灾害学报, 1996, 6(4): 8-19 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=QK199600705870

    Shi Peijun. Theory and Practice of Disaster Study[J]. Journal of Natural Disasters, 1996, 6(4): 8-19 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=QK199600705870
    [34] 史培军.三论灾害研究的理论与实践[J].自然灾害学报, 2002, 11(3): 1-9 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zrzhxb200203001

    Shi Peijun. Theory on Disaster Science and Disaster Dynamics[J]. Journal of Natural Disasters, 2002, 11(3): 1-9 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zrzhxb200203001
    [35] 史培军.四论灾害系统研究的理论与实践[J].自然灾害学报, 2005, 14(6): 1-7 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zrzhxb200506001

    Shi Peijun. Theory and Practice on Disaster System Research in a Fourth Time[J]. Journal of Natural Disasters, 2005, 14(6): 1-7 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zrzhxb200506001
    [36] 李京, 陈云浩, 唐宏, 等.自然灾害灾情评估模型与方法体系[M].北京:科学出版社, 2012

    Li Jing, Chen Yunhao, Tang Hong, et al.Natural Disaster Assessment Model and Method System[M]. Beijing: Science Press, 2012
    [37] 崔斌, 高军, 童咏昕, 等.新型数据管理系统研究进展与研究趋势[J].软件学报, 2019, 30(1): 164-193 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=rjxb201901010

    Cui Bin, Gao Jun, Tong Yongxin, et al. Progress and Trend in Novel Data Management System[J]. Journal of Software, 2019, 30(1): 164-193 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=rjxb201901010
    [38] 张琳, 熊斯攀.基于Neo4j的社交网络平台设计与实现[J].情报探索, 2018, 250(8): 81-86 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=qbts201808013

    Zhang Lin, Xiong Sipan. Design and Implementation of Social Network Platform Based on Neo4j[J]. Information Research, 2018, 250(8): 81-86 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=qbts201808013
    [39] 黄权隆, 黄艳香, 邵蓥侠, 等. HybriG:一种高效处理大量重边的属性图存储架构[J].计算机学报, 2018, 41(8): 1 766-1 779 http://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CJFD&filename=JSJX201808005

    Huang Quanlong, Huang Yanxiang, Shao Yingxia, et al. HybriG: A Distributed Storage Architecture for Efficiently Processing Property Graph with Massive Multi-edges[J]. Chinese Journal of Computers, 2018, 41(8): 1 766-1 779 http://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CJFD&filename=JSJX201808005
    [40] Mario M, Fabio M, Mirko C, et al. GraphDBLP: A System for Analyzing Networks of Computer Scientists Through Graph Databases[J]. Multimedia Tools & Applications, 2018, 77(14): 18 657-18 688
  • 加载中
图(4) / 表(7)
计量
  • 文章访问数:  150
  • HTML全文浏览量:  43
  • PDF下载量:  51
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-02-26
  • 刊出日期:  2020-09-05

自然灾害应急知识图谱构建方法研究

doi: 10.13203/j.whugis20200047
    基金项目:

    国家自然科学基金 41971347

    国家重点研发计划 2017YFC1502902

    作者简介:

    杜志强,博士,副教授,主要从事虚拟地理环境与灾害信息服务研究。duzhiqiang@whu.edu.cn

    通讯作者: 赵文豪,博士,高级工程师。zhaowh@ngcc.cn
  • 中图分类号: P208

摘要: 中国自然灾害发生频繁,受自然灾害的威胁极大,防灾减灾、抗灾救灾是人类生存发展的永恒课题。在自然灾害应急领域中,相关数据骤增而应急关键知识明显匮乏,存在“数据-信息-知识”转化能力不足的问题,由此提出了自顶向下和自底向上相结合的自然灾害应急知识图谱构建方法。围绕自然灾害事件、灾害应急任务、灾害数据、模型方法4个要素,自顶向下构建模式层,通过本体建模形成知识图谱的概念框架;自底向上构建数据层,通过数据获取、知识抽取、融合、存储建立实体间关联关系。以洪涝灾害应急知识图谱为例进行实验验证,结果表明,该方法能够对自然灾害事件、灾害应急任务、灾害数据、模型方法4要素的概念层次关系及要素属性、要素间语义关联关系进行形式化表达,实现了从多源数据到互联知识的转化。

English Abstract

杜志强, 李钰, 张叶廷, 谭玉琪, 赵文豪. 自然灾害应急知识图谱构建方法研究[J]. 武汉大学学报 ● 信息科学版, 2020, 45(9): 1344-1355. doi: 10.13203/j.whugis20200047
引用本文: 杜志强, 李钰, 张叶廷, 谭玉琪, 赵文豪. 自然灾害应急知识图谱构建方法研究[J]. 武汉大学学报 ● 信息科学版, 2020, 45(9): 1344-1355. doi: 10.13203/j.whugis20200047
DU Zhiqiang, LI Yu, ZHANG Yeting, TAN Yuqi, ZHAO Wenhao. Knowledge Graph Construction Method on Natural Disaster Emergency[J]. Geomatics and Information Science of Wuhan University, 2020, 45(9): 1344-1355. doi: 10.13203/j.whugis20200047
Citation: DU Zhiqiang, LI Yu, ZHANG Yeting, TAN Yuqi, ZHAO Wenhao. Knowledge Graph Construction Method on Natural Disaster Emergency[J]. Geomatics and Information Science of Wuhan University, 2020, 45(9): 1344-1355. doi: 10.13203/j.whugis20200047
  • 中国是世界上发生自然灾害最普遍和严重的国家之一,其地理位置特殊,地貌类型复杂多样,加上处于不稳定的季风环流控制下,地震、台风、干旱、洪涝、风暴潮等多种自然灾害都有发生[1-2],对人民生命财产造成了极大威胁[3]。同时,由于自然灾害种类多,发生频率高,分布地域广,造成损失重,对中国的经济建设和社会发展也造成严重的影响,因此迫切需要大幅提升我国灾害应急管理和综合减灾的能力,对实现“两个坚持、三个转变”的新时期防灾减灾新要求意义重大。

    习近平总书记强调:“人类对自然规律的认知没有止境,防灾减灾、抗灾救灾是人类生存发展的永恒课题”。但中国现代应急实践起步晚,受技术限制等原因,应急能力相对不足,难以适应新时代灾害治理的迫切需求。21世纪以来,各式传感器和遥感平台快速发展,数据源越来越广,数据量越来越大,灾害相关数据在种类和总量方面均大幅度提升,对数据整合、处理和分析的能力提出了更高要求。与数据获取技术相比,数据应用相关技术的发展则比较缓慢,日积月累的海量数据仅有很少一部分在非常有限的范围内被使用或转化为信息与领域知识[4]。因此,从大数据中获取知识,利用这些知识提供智能化服务与应用,形成知识与数据的迭代式增强,是灾害应急领域的重要研究内容。

    知识图谱起源于20世纪60年代的语义网络[5],20世纪90年代,“本体”的思想被引入到知识表示方法当中[6],随着万维网以及开放链接数据的发展,Google于2012年5月正式提出知识图谱的概念。随着“互联网+”、大数据、云计算、人工智能等的迅猛发展,以知识图谱和知识中心为代表的知识服务研究方兴未艾[7-8],为知识互联的研发与应用提供了有益借鉴。知识图谱以结构化方式显式地表达知识节点(包括概念、实体等)及相互间的语义关系,从文本和数据互联走向知识互联,形成大数据环境下的知识服务[9-10],可为大数据背景下的知识互联奠定扎实的基础。

    当前,通用知识图谱比较著名的有Freebase、DBpedia、Wikidata、YAGO2、百度“知心”、搜狗“知立方”等[11-14],在金融、医疗、情报等领域知识图谱也有了相应的行业应用[15-19]。但是在自然灾害应急领域本体、知识表示的相关研究中,大多是针对自然灾害事件单一要素进行分析,构建自然灾害情景模型,分解识别灾害场景[20-21],分析自然灾害事件的演化与关联关系[22-25];部分研究了自然灾害事件与应急响应两者之间的关系,基于本体构建应急知识库,设置规则对应急响应级别与应急过程进行推理[26-30]。目前灾害数据来源广泛,使用的灾害模型众多,而现有研究缺少对灾害数据、模型方法要素的分析以及应急任务与模型方法、模型方法与灾害数据等多要素间关联关系的分析,较难进行具体的知识应用。

    针对上述问题,本文以自然灾害为核心,围绕自然灾害事件、灾害应急任务、灾害数据、模型方法4个要素,建立概念层次以及要素之间丰富的语义关联关系,在自然灾害应急领域构建知识图谱,旨在从海量、异构的数据中获取知识,实现由传统应急信息服务到知识驱动的智能应急知识服务的跃迁,为切实提升自然灾害应急响应能力提供坚实的理论方法基础。

    • 知识图谱是结构化的语义知识库,以符号形式描述物理世界中的概念及其相互关系。现代知识图谱受到规模化扩展的要求,通常采用以三元组为基础的较为简单实用的知识表示方法,其基本组成单位是“实体-关系-实体”“实体-属性-属性值”三元组,实体间通过关系相互联结,构成网状的知识结构。自然灾害应急领域中,灾害事件描述复杂,灾害数据量大,模型方法耦合复杂,应急任务要求高时效性,实体之间的关联关系复杂、多样,是典型的复杂知识结构。自然灾害应急知识图谱就是自然灾害事件、灾害应急任务、灾害数据、模型方法4类核心要素的概念层次关系和以节点、关系为载体的要素及要素之间语义关联关系的总和及其形式化表达。

    • 图 1所示,知识图谱构建采用自顶向下和自底向上相结合的方法。自顶向下构建知识图谱的模式层,通过本体库的设计搭建知识图谱的框架,预先定义、固定编排模式图中的上下位关系、类属关系、语义关联关系等,定义准确、结构层次分明的概念框架,形成良好的概念层次知识体系。

      图  1  自然灾害应急知识图谱构建流程

      Figure 1.  Construction Process of Knowledge Graph in Natural Disaster Emergency Field

      自底向上构建数据层,针对灾害领域数据库、领域文献或其他泛在文本资源等不同的知识源类型设计合适的抽取方法,充分利用知识源之间的数据冗余性进行实体、关系抽取,将不同来源的知识进行对齐、合并,设计知识图谱的底层存储方式,将自然灾害事件、灾害应急任务、灾害数据、模型方法的具体实例要素进行分解,映射到相关概念节点当中,从而建立多层次的实体关联关系,实现模式层到数据层的映射,从而构建得到自然灾害应急知识图谱。

    • 自然灾害应急知识图谱的模式层由概念节点集合、概念关系边集合构成,是灾害领域中概念、概念间关系的表示。针对自然灾害应急领域中的自然灾害事件、灾害应急任务、灾害数据、模型方法4类要素,通过先验知识对各个要素进行概念层次关系划分、要素属性关系以及概念间语义关系定义。本体是指对领域内概念及其关系的一种明确的、形式化、规范化的描述说明[6, 31-32],利用本体的思想构建自然灾害应急知识图谱的模式层,为数据层中具体实例的要素属性分解奠定理论框架基础。

      自然灾害应急知识图谱的模式层构建主要是建立包含自然灾害事件、灾害应急任务、灾害数据、模型方法4类核心要素的自然灾害应急领域综合本体,定义4类要素之间的语义关系(见图 2),将其表示为:

      图  2  本体之间语义关联关系

      Figure 2.  Semantic Association Between Ontologies

      EmergencyOntology= {DisasterEvent,DisasterTask,DisasterData,DisasterMethod,Relation}

      其中,DisasterEvent表示自然灾害事件本体;DisasterTask表示应急任务本体;DisasterData表示灾害数据本体;DisasterMethod表示模型方法本体;Relation表示自然灾害事件、应急任务、灾害数据、模型方法之间的语义关联关系。

    • 自然灾害事件本体是有关自然灾害概念层次关系、属性关系以及关联关系的统一描述,将一个自然灾害事件本体表示为:

      DisasterEvent={Event_Concept, Event_Property, Event_Relation, Event_Restriction, Event_Instance}

      其中,Event_Concept表示所有自然灾害事件概念的集合,包含了自然灾害概念的定义以及概念层次分类;Event_Property表示自然灾害事件本身属性的定义,如灾害事件名称、发生时间、发生地点等;Event_Relation表示自然灾害事件之间语义关联关系的定义,如引发、并发、群发等;Event_Restriction表示公理,描述自然灾害事件之间的约束关系,例如暴雨会引发洪涝,暴雨属于“暴雨-洪涝”灾害链的一部分;Event_Instance表示自然灾害事件的具体实例,如甘肃青海发生洪涝风雹灾害。

      依据《自然灾害分类与代码》(GB/T 28921—2012)对自然灾害的概念类别层次进行划分,共分为气象水文灾害、地质地震灾害、海洋灾害、生物灾害和生态环境灾害5大类40种自然灾害。

      按照自然灾害系统理论,致灾因子、孕灾环境、承灾体组成了区域灾害系统,三者相互作用而产生灾情[33],结合自然灾害承灾体分类与代码(GB/T 32572—2016)、自然灾害灾情统计(GB/T 24438.1—2009)等国家标准,从灾害事件基本属性、致灾因子、孕灾环境、承灾体以及灾情5个方面对自然灾害事件的属性进行描述。基本属性包含自然灾害事件的发生时间、结束时间、发生地点和灾害类别;致灾因子属性包含灾害频率、灾害强度等;孕灾环境属性包含地形地貌、气象、水文等;承灾体属性包含种类、暴露度、数量等;灾情属性包含人口伤亡、房屋损毁、农作物受损等。自然灾害事件的发生具有关联关系,根据灾害系统理论中的灾害链、灾害群的定义[34-35],将自然灾害事件对象的语义关系定义为引发、衍生、并发、群发4种语义关系。

    • 应急任务本体是有关应急任务概念层次关系、属性关系以及关联关系的统一描述,将一个灾害应急任务本体表示为:

      DisasterTask={Task_Concept, Task_Property, Task_Relation, Task_Restriction, Task_Instance}

      其中,Task_Concept表示所有灾害应急任务概念的集合,包含了应急任务概念的定义以及概念层次分类;Task_Property表示应急任务本身属性的定义,如应急任务名称、应急响应级别等;Task_Relation表示应急任务之间语义关联关系的定义,如前继关系;Task_Restriction表示公理,描述任务与任务之间的约束关系;Task_Instance表示应急任务的具体实例,如洪涝灾害范围分析。

      整理国务院办公厅发布的《国家自然灾害救助应急预案》(国办函[2016]25号)、民政部印发的《救灾应急工作规程》(民发[2015]83号)等相关文件,结合灾害风险管理与应急管理理论,根据灾害发生的过程,划分为灾前、灾中、灾后3个阶段,每个阶段的应急目标与应急任务侧重点各有不同,应急任务的概念层次划分如表 1所示。

      表 1  应急任务概念层次

      Table 1.  Levels of Concept for Emergency Tasks

      过程 目标 具体应急任务
      灾前 预警、预防、备灾 风险监测、风险评估、灾害预警等
      灾中 快速反应、应急处置 应急响应级别、灾中快速评估、应急救助资源配置与调度决策、转移安置决策、应急推演等
      灾后 恢复重建、总结评估 灾情综合评估、恢复重建效果评估等

      在对应急任务的属性进行描述时,其基本的属性信息包含应急任务名称、任务具体描述、任务所处阶段和应急响应级别。根据应急任务执行过程,应急任务之间的语义关系划分为前继、后继、循环、并行4种流程关系。

    • 灾害数据本体是有关灾害数据概念层次关系、属性关系以及关联关系的统一描述,将一个灾害数据本体表示为:

      DisasterData ={Data_Concept, Data_Property, Data_Relation, Data_Restriction, Data_Instance}

      其中,Data_Concept表示所有灾害数据概念的集合,包含了灾害数据概念的定义以及概念层次分类;Data_Property表示灾害数据本身属性的定义,如灾害数据名称、数据类型等;Data_Relation表示灾害数据之间语义关联关系的定义,如数据时空重合度等;Data_Restriction表示公理,描述数据与数据之间的约束关系;Data_Instance表示灾害数据的具体实例,如受灾行政区划图。

      灾害数据具有体量大、种类多等基本特征,目前多源异构的灾害大数据相互孤立,灾害数据的组织管理较少顾及语义特征、缺乏有效的关联机制,总结整理《国家自然灾害救助应急预案》中的相关灾害数据概念与术语,结合已有灾害数据分类方法,将灾害数据划分为基础地理数据、实时遥感数据、社会经济数据、历史灾情数据、监测上报数据、灾害信息产品6大类,每个大类可细分小类。

      灾害数据的基本属性包含数据名称、数据类别、数据获取时间、数据覆盖范围、数据描述对象、数据来源等。除此之外,针对遥感影像数据,需要对其元数据进行描述,主要包含遥感影像数据的传感器类型、波段信息、时间分辨率、空间分辨率等参数。数据之间的语义关系主要分为时空语义关系、数据之间的关联度,时空语义关系是从时间、空间层面对数据之间的重合度进行计算;数据关联度是利用基于统计的数据关联规则挖掘,发现数据之间共现率较高的频繁项集,有利于自动发现潜在的相似数据、相关数据(见表 2)。

      表 2  灾害数据语义关系

      Table 2.  Semantic Relationships Between Disaster Data

      名称 量化方法 说明 对应关系
      时间重合度 ${\rm{Overla}}{{\rm{p}}_{T\left( {i, j} \right)}} = \frac{{T\left( i \right)\mathop \cap \nolimits T\left( j \right)}}{{T\left( i \right) \cup T\left( j \right)}}$ T (i)为灾害数据i的时间跨度,T (j)为灾害数据 j的时间跨度,两者的时间范围交集与并集之比则为灾害数据ij之间的时间重合度 OverlapT(i, j)⊆[0, 1],值为0时表示数据间不具有时间关联性;值为(0, 1]时,表示数据间具有时间关联性,值越大,则灾害数据之间的时间关联性越强
      空间重合度 ${\rm{Overla}}{{\rm{p}}_{S\left( {i, j} \right)}} = \frac{{S\left( i \right)\mathop \cap \nolimits S\left( j \right)}}{{S\left( i \right)\mathop \cup \nolimits S\left( j \right)}}$ S (i)为灾害数据i的空间范围,S (j)为灾害数据j的空间范围,两者的空间范围交集与并集之比则为灾害数据ij之间的空间重合度 OverlapS (i, j)⊆[0, 1],值为0时表示数据间不具有空间关联性;值为(0, 1]时,表示数据间具有空间关联性,值越大,则灾害数据之间的空间关联性越强
      数据关联度 ${\rm{Suppor}}{{\rm{t}}_{\left( X \right)}} = \frac{k}{n}$ X为一个灾害数据项集,kX在总灾害数据案例集里出现的次数,n为灾害数据案例的总数,则数据项集X的支持度为Support(X)。设置最小支持度阈值,当某项集的支持度值高于该阈值时,则该项集为频繁项集 Confidence(AB)⊆[0, 1],值为0时表示两者不具有关联性;值为(0, 1]时,表示两者之间具有数据关联性,值越大,表示在使用了数据A的条件下,使用数据B的概率越大,数据关联性越强
      ${\rm{Confidenc}}{{\rm{e}}_{\left( {A \to B} \right)}} = \\ \frac{{{\rm{Suppor}}{{\rm{t}}_{\left( {A\mathop \cup \nolimits B} \right)}}}}{{{\rm{Suppor}}{{\rm{t}}_{\left( A \right)}}}}$ 若灾害数据A在某一项集中出现,且在同样项集中一定存在灾害数据B,可将两者的关联规则表示为:AB,规则AB的置信度为Confidence(AB)
    • 模型方法本体是有关模型方法概念层次关系、属性关系以及关联关系的统一描述。随着遥感技术、地理信息系统、全球定位系统、计算机技术以及数学方法的发展,形成了大量的灾害相关模型方法,这些定性或定量的模型方法成为防灾减灾工作的有效工具。将一个模型方法本体表示为:

      DisasterMethod={Method_Concept, Method_Property, Method_Relation, Method_Restriction, Method_Instance}

      其中,Method_Concept表示模型方法概念的集合,包含了模型方法概念的定义以及概念层次分类;Method_Property表示模型方法本身属性的定义,如模型方法名称、功能、描述等;Method_Relation表示模型方法之间语义关联关系的定义,如方法间的相似度;Method_Restriction表示公理,描述方法与方法之间的约束关系;Method_Instance表示模型方法的具体实例,如灾害情景分析法。

      根据已有自然灾害灾情评估模型与方法体系专家先验知识[36],对模型方法的概念类别层次进行划分,共分为地理信息系统、遥感、统计分析、模型模拟4大类,每个大类后可细分小类。

      模型方法的基本属性包含方法名称、所属类别、方法功能、方法具体描述、应用效果、验证地区等,语义关系主要分为方法之间的关联度、方法名称相似度、方法功能相似度。方法关联度的计算与灾害数据本体当中的数据关联度相似,利用关联分析算法中的支持度与置信度进行量化;方法名称相似度与功能相似度是从语义的角度对其基本属性进行文本相似度计算。方法m1m2的语义相似度计算公式为:

      $${S_{M\left( {{m_1}, {m_2}} \right)}} = \frac{{\mathit{\boldsymbol{A}}{\rm{}}\cdot{\rm{}}\mathit{\boldsymbol{B}}}}{{\left| \mathit{\boldsymbol{A}} \right| \times \left| \mathit{\boldsymbol{B}} \right|}} = \frac{{{\sum\limits_{i = 1}^n} \left( {{\mathit{\boldsymbol{A}}_i} \times {\mathit{\boldsymbol{B}}_i}} \right)}}{{\sqrt {{\sum\limits_{i = 1}^n} {{({\mathit{\boldsymbol{A}}_i})}^2}} \times \sqrt {{\sum\limits_{i = 1}^n} {{({\mathit{\boldsymbol{B}}_i})}^2}} }}$$ (1)

      m1m2在语义空间进行文本分词,共有n个分词,并计算每个分词的词频,形成方法m1、方法m2的词频向量AB,转化到向量空间后,利用余弦值来判断向量的相似程度,SM (m1m2)的值越大,就代表两者的语义相似度越高。

    • 自然灾害应急知识图谱的数据层由实体节点集合、实体属性关系边以及实体语义关系边集合构成,边连接两个节点表示一条三元组知识。在模式层中自然灾害应急领域本体库的概念框架指导下,针对已有灾害领域数据库、领域文献或其他泛在文本资源等不同的知识源类型,获取多源数据,抽取实体及关系,并进行数据融合,最终将三元组知识存储到图数据库中。

    • 由于灾害领域知识来源众多,具有结构化、半结构化和非结构化多种形式,例如已有灾害案例数据库、灾情统计数据库等结构化数据,灾害公示网页、领域行业网站以及百科网页等半结构化数据,专业文献资料、文本数据等非结构化数据。

      针对多种形式的知识源,本文提出多策略学习的数据获取方法。根据模式层中4要素的本体模型,从已有数据库等结构化数据中直接提取相关记录;对于国家减灾网等自然灾害领域行业网页的半结构数据,通过解析网页结构,设计网页元素模板匹配模型,结合网页爬虫技术获取领域相关数据;对于领域专业文献资料等文本类的非结构化数据,利用文献搜索引擎,设置检索关键字,利用网页爬虫获取领域文献数据,3种方式相结合,从而获取较为全面的数据源。

    • 针对结构化、半结构化和非结构化数据源的特点,设计相应的实体及关系抽取方法。结构化数据字段定义明确,设计相应的字段映射规则,从关系数据库中直接抽取实体名称及属性信息,对象之间的语义关系可通过数据库的字段链接进行映射;对于从网站网页、专业文献中获取的文本类数据,通过文本分词、句法规则定义、关键词匹配等文本处理方法以及监督学习等方法抽取目标实体、关系,得到初始的实体及关系集合。

      从文本数据中识别实体及关系是知识抽取的难点。自然灾害事件、应急任务、灾害数据3类要素在本体层面定义的概念已经较好地涵盖了具体实体的名称,因此以其本体模型的最细粒度分类概念作为实体名称字典,对获取的多源数据进行实体名称匹配,可以实现这3类要素的实体抽取。由于已有模型方法种类较多,无法构建较为全面的模型方法实体名称字典,因此,如何从文本数据中抽取“模型方法”实体是一关键过程。

      条件随机场模型(conditional random fields,CRF)是一种序列标注的机器学习模型,常用于词性标注、分词、命名实体识别等领域。CRF通过输入字、词、词性等上下文特征,在给定一个文本序列x下,计算其标注序列y的概率:

      $$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ P(y|x) = \frac{1}{{Z\left( x \right)}} \cdot \\{\rm{exp}}\left( {\mathop \sum \limits_{i, k} {\lambda _k}{t_k}\left( {{y_{i - 1}}, {y_i}, x, i} \right) + \mathop \sum \limits_{i, k} {\mu _k}{s_k}\left( {{y_i}, x, i} \right)} \right)$$ (2)

      式中,Z (x)是一个在所有状态序列上的归一化因子;tksk是模型的特征函数;λkμk是针对特征函数学习得到的权值。实体识别任务是给定文本序列x的条件下,估计产生标注序列y的条件概率有多大,最终得到的标注序列y是满足条件max (P ( y|x))的计算结果。

      本文采用BIEO(Begin-Intermediate-End-Other)的组块表达方法来标识模型方法实体名称,即定义模型方法实体的标记符号为{M_Begin(名称首部),M_Intermediate(名称中部),M_End(名称尾部),Other(非名称字符)}。选取了中文文献的摘要文本数据,对1 034个句子(27 381个字符)进行人工标注,划分700个句子(18 652个字符)为训练集,334个句子(8 729个字符)为验证集。综合准确率与召回率,采用F度量来评估该模型对于方法实体识别的效果:

      $$F = \frac{{\left( {{\beta ^2} + 1} \right) \times P \times R}}{{\left( {{\beta ^2} \times P} \right) + R}}$$ (3)

      式中,P为准确率,表示标注结果中正确标注的比例,用于衡量识别结果的准确性;R为召回率,表示正确标注结果占人工标注的比例,用于衡量识别结果的全面性;β则决定了PR的重要程度,本研究β取值为1,将准确率和召回率按相同的重要程度进行考虑。

      通过设置单字、词性等计算特征以及上下文滑动窗口大小进行CRF模型的训练。选择单字符特征,设置不同滑动窗口大小值,发现训练模型的F度量在滑动窗口值为2时取得最大值,扩大窗口大小并没有提高实体识别的效果。为了进一步研究特征选择对模型应用效果的影响,利用“Jieba”中文分词组件,加入字词的词性特征作为输入,设置滑动窗口值为2,此时F度量相较之前的最优结果并没有得到提升,说明增加词性特征未能提升实体识别效果。通过以上实验发现,各CRF模型的实体识别准确率都达到90%以上,但召回率都在60%以下,导致综合度量F值不是很高;CRF模型在考虑当前字符以及前后各2个字符的上下文特征时,对模型方法实体识别的效果较好(见表 3)。

      表 3  模型方法实体识别实验结果

      Table 3.  Results of Method Entity Recognition Based on CRF

      特征选择 滑动窗口大小 准确率/% 召回率/% F度量
      单字 1 91.43 59.41 72.02
      单字 2 92.14 59.84 72.55
      单字 3 93.75 55.16 69.45
      单字+词性 2 91.81 59.19 71.90

      通过CRF模型可以得到准确率较高的实体识别结果,但是识别结果不全面。考虑中文描述的句法结构以及模型方法实体名称特点,人工总结判定规则,通过前缀词与后缀词匹配、中间连接词分割的方法进行实体抽取(见表 4)。

      表 4  模型方法实体匹配规则

      Table 4.  Matching Rules of Method Entity

      前缀词 中间连接词 后缀词
      采用
      应用
      运用
      利用
      提出



      及其
      以及
      方法
      算法
      函数
      模型
      技术

      不同方法实体识别对比如表 5所示。由表 5可以看出,与之前训练得到的CRF模型相比,基于规则匹配的实体识别召回率得到提升,但是准确率有所下降,导致最终的 F值提升不大。为了综合CRF方法的高准确率与基于规则匹配的高召回率,研究综合两者的实体识别方法:对于未包含规则匹配词语的句子,利用CRF模型进行识别,将CRF的识别结果加入最终输出结果,提高召回率;对于由规则匹配识别出的名称,如果规则匹配的识别结果当中包含有CRF识别结果,则将CRF识别的方法名称替换基于规则识别的方法名称,提高准确率。通过不同实验对照可以看出,相比于使用单一的规则匹配模型,综合CRF与规则匹配的实体识别方法的准确率与召回率均得到了提升,其综合度量 F值达到了83.69,此时的实体识别效果最优。

      表 5  不同方法实体识别对比

      Table 5.  Comparison with Different Methods of Entity Recognition

      方法 准确率/% 召回率/% F度量
      CRF 92.14 59.84 72.55
      规则匹配 68.13 82.65 74.69
      CRF+规则匹配 79.76 88.02 83.69

      通过以上流程,可以对自然灾害事件、应急任务、灾害数据、模型方法4大要素的具体实例进行抽取。针对要素之间的关联关系抽取,自然灾害事件与应急任务之间的关系通过领域专业先验知识进行关联;灾害事件与数据之间的时空约束通过灾害发生时间、地点与灾害数据的获取时间、空间范围匹配进行时空层面的约束;将应急任务作为搜索关键字对文献进行筛选,可得到应急任务与模型方法之间的对应关系;当方法与数据在同一篇文献摘要中出现,则可抽取数据与方法之间的输入输出关系。

    • 本研究的数据源多为中文文本数据,由于中文描述的多样性,对于同一内容可能有多种表述方式,导致了知识抽取过程中存在数据冗余,对于抽取阶段得到的孤立的实体、属性和关系,需要进行数据融合操作。

      在实体抽取部分,运用CRF与规则匹配相结合的方式识别出的模型方法实体,存在同一实体具有不同中文表述的情况,导致识别出的“模型方法”实体存在冗余,例如小波分析、小波变换方法、小波分析方法,三者表达的本质内容其实是一致的,因此需要定义合适的相似度度量,采用聚类、阈值设置的方法进行实体对齐。

      应用§2.4中的模型方法语义相似度计算方法,将识别出的实体名称进行中文分词、计算分词词频,构建实体名称的词袋向量,将实体名称从语义空间转换到向量空间,计算向量之间夹角的余弦值,夹角的余弦值越大,表示语义相似度越高。

      通过设置语义相似度阈值,将方法实体之间的语义相似度计算结果小于设定阈值的实体名称进行融合对齐,为了提升方法描述的详细程度,采用相似集合当中字符最长的实体名称作为融合之后的结果。设置不同的相似度阈值进行多次实验,发现当阈值设置为0.5时,融合的结果较好(见表 6)。

      表 6  知识融合前后对比

      Table 6.  Differences Between Comparison Before and After Knowledge Fusion

      融合前 融合后
      小波分析,小波分析方法,小波变换方法 小波分析方法
      聚类分析,层次聚类分析方法,聚类分析方法 层次聚类分析方法
      城市洪涝模型,洪涝仿真模型,洪涝模拟方法,城市洪涝仿真模型,城市洪涝分析模型,城市洪涝模拟方法,洪涝分析 城市洪涝仿真模型
    • 通过以上处理流程,将不同结构的源数据转化为结构化的知识三元组数据。对于结构明确、实体属性及关联关系丰富的灾害领域数据,图数据库的存储方式具有明显优势[37-40],可以实现从概念、属性、实例等多个维度对自然灾害应急领域知识图谱进行展示。

      使用图数据库进行存储,将实体—关系—实体、实体—属性—属性值三元组当中的首尾部分存储为相应的节点,属性关系、语义关系存储为边,从而实现结构化知识三元组到图中节点和边的映射,利用图查询语言、图挖掘算法便于关系延伸计算与知识图谱的具体应用。

    • 面向洪涝灾害管理过程中的灾害范围与强度分析、洪涝模拟仿真等应急任务是知识图谱应用于实际应急管理过程的典型应用。构建洪涝灾害应急知识图谱能够提供灾害领域统一描述框架,更好地认识自然灾害事件、应急任务、灾害数据、模型方法之间丰富的关联关系,从海量数据中获取可实际应用的知识,提升知识的智能应用水平,对于防灾减灾具有重要的意义。

      按照本文提出的知识图谱构建方法,首先自顶向下构建洪涝灾害知识图谱的模式层,建立包含洪涝灾害事件、灾害应急任务、灾害数据、模型方法4类核心要素的自然灾害应急领域综合本体,对要素的概念层次关系、要素属性关系以及概念间语义关系进行定义,模式层构建结果如图 3所示。所构建的洪涝灾害应急综合本体能够对洪涝灾害事件进行完整、清晰的描述,同时也能够将应急任务、灾害数据与模型方法各要素间关系进行完整表达,形成对自然灾害应急领域概念的统一描述,有助于领域信息的共享和复用。

      图  3  洪涝灾害应急知识图谱模式层

      Figure 3.  Ontology of Flood Disaster Emergency Knowledge Graph

      然后自底向上构建数据层,从国家减灾网、中文学术文献检索平台、洪涝灾害评估模型库获取多源数据。国家减灾网发布了自2018-01-04—2020-04-22的灾害信息,从中获取了洪涝灾害事件共125条,发布内容中包含有灾害发生时间、发生地点、致灾因子属性以及人口、房屋、经济等灾情损失信息,按照洪涝灾害事件本体结构,对洪涝灾害实例进行实体、属性值的抽取。以灾前、灾中、灾后不同应急阶段的洪涝应急任务为关键词搜索相关中文文献共5 706条,结合基础数据库中16个洪涝灾害评估模型,按照词典匹配的方法获取灾害数据实体45个;利用本文提出的基于CRF与规则匹配的实体识别方法,从文献摘要中识别出“模型方法”实体共3 435个,经融合后得到2 475个实体名称;按照应急任务、灾害数据、模型方法的共现关系,抽取应急任务与模型方法、模型方法与灾害数据之间的关联关系;通过关联规则挖掘,发现灾害数据之间共现率较高的频繁项集,得到灾害数据之间的关联关系,知识图谱当中节点及关系的数量统计如表 7所示。

      表 7  洪涝灾害应急知识图谱节点及关系统计数据

      Table 7.  Statistics of Nodes and Relationships in Flood Disaster Emergency Knowledge Graph

      名称 类型 数量
      洪涝灾害事件 节点 523
      应急任务 节点 11
      灾害数据 节点 45
      模型方法 节点 2 475
      起始时间 97
      结束时间 116
      发生地点 125
      致灾因子 38
      灾情信息 125
      对应任务 375
      使用方法 2 600
      输入 7 251
      输出 1 953
      数据关联 9

      利用图数据库Neo4j存储以上节点及关系边,洪涝灾害应急知识图谱数据层的部分节点及关系如图 4所示。

      图  4  洪涝灾害应急知识图谱数据层(部分)

      Figure 4.  Instance of Flood Disaster Emergency Knowledge Graph(Part)

      图 4清晰地展现了自然灾害事件、灾害应急任务、灾害数据、模型方法实体、实体属性关系及实体之间的关联关系,红色节点表示洪涝灾害事件,与“江苏东海县发生洪涝灾害”节点相连接的有灾害发生时间、结束时间、发生地点、致灾因子等属性节点,以及灾害事件对应的应急任务节点(黄色)。灾前、灾中、灾后不同过程具有对应的应急任务,如图 4所示,灾前具有“洪涝监测”任务、灾中具有“洪涝模拟”任务;不同的应急任务节点与模型方法节点(绿色)相连,表示任务可使用的方法,例如针对洪涝监测应急任务可以使用NDVI(normalized difference vegetation index)指数方法,针对洪涝模拟应急任务可使用FloodArea水文模型。模型方法节点与灾害数据节点(蓝色)相连,表示数据与方法间的输入/输出关系,例如FloodArea水文模型需要的输入数据有气象监测数据、水文、水情监测数据、地形、实时监测数据,方法输出结果为洪涝灾害模拟产品。此外,部分灾害数据节点之间以数据关联度连接,例如站点上报数据与水情监测数据具有数据关联关系,量化值为0.81,表示当使用站点上报数据时同时使用水情监测数据的概率较大,则根据灾害数据的数据关联关系,可以对相关数据节点进行推荐应用。

      洪涝灾害应急知识图谱案例中,包含了自然灾害应急领域中的自然灾害事件、灾害应急任务、灾害数据、模型方法4个核心要素,根据模式层中本体库定义的较为全面的要素属性及语义关系,实现了数据层中具体实例的知识抽取,对要素之间丰富的关联关系进行了表达。可以发现本文所构建的洪涝灾害应急知识图谱不仅能够对自然灾害事件、灾害应急任务、灾害数据、模型方法进行清晰、完整的表达,同时也能够将各个要素之间的语义关系进行描述,实现了从多源数据到互联知识的转化。

    • 知识图谱的理论方法为知识信息提供了一种新的获取、存储、组织、管理和展示的手段,为自然灾害研究和防灾减灾知识服务拓展了新的空间。本文针对当前自然灾害应急领域数据量骤增而应急管理关键知识明显匮乏的矛盾,研究了自然灾害应急知识图谱的构建方法。对自然灾害应急领域当中的自然灾害事件、灾害应急任务、灾害数据、模型方法4个核心要素,对其概念、属性、关系进行本体层面的分类与定义,构建知识图谱模式层中的统一概念描述框架,在框架指导下,针对不同的数据源类型,通过数据获取、知识抽取、知识融合、知识存储构建知识图谱数据层中丰富的实体及关系。

      并以洪涝灾害应急知识图谱为例进行实验验证,结果表明本文构建的知识图谱在概念、属性、语义关联上能够满足对自然灾害事件、灾害应急任务、灾害数据、模型方法的描述,能够较为清晰、完整地表达实体及实体间丰富的关联关系,验证了本文所提出的自然灾害应急领域知识图谱构建方法的有效性和可行性,同时也为灾害领域中数据—信息—知识的转变提供了一种新的方法。

      总体来说,本研究为知识的获取与表达提供了新的应用视角,对于实现新时期防灾减灾新要求具有重要意义。此外,本研究尚有不足,如对于知识图谱数据层构建中,受到数据丰富度、完整度的影响较大,模式层中建立的灾害要素属性、关系较多,但具体实例中缺乏较为完整的描述,因此会影响实体、关系抽取的效果。在后续研究中,需要继续扩展数据来源,对已有经验知识进行借鉴与利用,同时对新知识进行发现与总结,从而提高知识图谱的完整度。

参考文献 (40)

目录

    /

    返回文章
    返回