留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

一种COVID-19病例个体时空轨迹交互式提取与质量评估方法

张国永 龚建华 孙麇 周洁萍 李文航 张利辉 汪东川 李文宁 胡卫东 樊鸿奎

张国永, 龚建华, 孙麇, 周洁萍, 李文航, 张利辉, 汪东川, 李文宁, 胡卫东, 樊鸿奎. 一种COVID-19病例个体时空轨迹交互式提取与质量评估方法[J]. 武汉大学学报 ● 信息科学版, 2021, 46(2): 177-183. doi: 10.13203/j.whugis20200290
引用本文: 张国永, 龚建华, 孙麇, 周洁萍, 李文航, 张利辉, 汪东川, 李文宁, 胡卫东, 樊鸿奎. 一种COVID-19病例个体时空轨迹交互式提取与质量评估方法[J]. 武汉大学学报 ● 信息科学版, 2021, 46(2): 177-183. doi: 10.13203/j.whugis20200290
ZHANG Guoyong, GONG Jianhua, SUN Jun, ZHOU Jieping, LI Wenhang, ZHANG Lihui, WANG Dongchuan, LI Wenning, HU Weidong, FAN Hongkui. An Interactive Individual Spatiotemporal Trajectory Extraction and Quality Evaluation Method for COVID-19 Cases[J]. Geomatics and Information Science of Wuhan University, 2021, 46(2): 177-183. doi: 10.13203/j.whugis20200290
Citation: ZHANG Guoyong, GONG Jianhua, SUN Jun, ZHOU Jieping, LI Wenhang, ZHANG Lihui, WANG Dongchuan, LI Wenning, HU Weidong, FAN Hongkui. An Interactive Individual Spatiotemporal Trajectory Extraction and Quality Evaluation Method for COVID-19 Cases[J]. Geomatics and Information Science of Wuhan University, 2021, 46(2): 177-183. doi: 10.13203/j.whugis20200290

一种COVID-19病例个体时空轨迹交互式提取与质量评估方法

doi: 10.13203/j.whugis20200290
基金项目: 

中国科学院战略性先导科技专项 XDA19090114

嘉善县科技计划项目 2018A08

浙江中科院应用技术研究院项目 ZK-CX-2018-04

详细信息
    作者简介:

    张国永,博士生,主要从事三维GIS与虚拟地理环境研究。zhanggy@radi.ac.cn

    通讯作者: 龚建华,博士,研究员。gongjh@radi.ac.cn
  • 中图分类号: P208

An Interactive Individual Spatiotemporal Trajectory Extraction and Quality Evaluation Method for COVID-19 Cases

Funds: 

The Strategic Priority Research Program of Chinese Academy of Sciences XDA19090114

Jiashan Science and Technology Plan Project 2018A08

the CAS Zhejiang Institute of Advanced Technology Fund ZK-CX-2018-04

More Information
    Author Bio:

    ZHANG Guoyong, PhD candidate, specializes in 3D geographic information system and virtual geographical environment. E-mail: zhanggy@radi.ac.cn

    Corresponding author: GONG Jianhua, PhD, professor. E-mail: gongjh@radi.ac.cn
  • 摘要: 针对当前新型冠状病毒肺炎(coronavirus disease 2019,COVID-19)病例个体时空轨迹描述文本高度非结构化的特点,提出了一种基于自然语言处理(natural language processing, NLP)辅助的交互式轨迹提取方法,用于提高轨迹提取的效率和质量。设计了交互式轨迹提取和质量评估流程,研究并实现了地址分割与组合算法、轨迹质量评估算法等关键技术。以黑龙江本土COVID-19聚集病例为例,通过轨迹提取效率和质量对比实验,验证了该方法的有效性和实用性。实验结果表明,与无NLP辅助的提取方法相比,该方法的轨迹提取效率得到了显著提升;同时,依据轨迹定量可信度评价结果,人机交互式的提取方法还可有效解决算法轨迹自动提取中存在的轨迹点遗漏、位置错误等问题。
  • 图  1  交互式轨迹提取框架

    Figure  1.  Framework of Interactive Trajectory Extraction

    图  2  交互式轨迹提取流程

    Figure  2.  Workflow of Interactive Trajectory Extraction

    图  3  交互式轨迹提取系统

    Figure  3.  Interactive Trajectory Extraction System

    图  4  活动轨迹和常住地址提取耗时

    Figure  4.  Time Consuming of Movement Trajectory and Resident Address Extraction

    算法名称:getFullAddress(L, S)
    /*该算法返回经过合并和分割的地址列表
    /*L为语法分割后的地址字典,其key为字符在原文本中的偏移量,value为提取的地址文本
    /*S为语法分割后的地址分割符字典,其key为字符在原文本中的偏移量,value为分隔符文本
    /* hasSpliterBetween(start, end)为判断两个地址之间是否有分隔符的方法
    /* getGeoCoordinateByLoc(loc)为根据地址名称从高德地理编码API中查询经纬度的方法
    1 begin
    2   for each $ {l_k} \in \left\{ L \right\}_{k = 1}^n$do
    3     offset← $ {l_k}.{\rm{index}} - \left( {{\rm{}}{l_{k - 1}}.{\rm{index}} + {\rm{length}}\left( {{l_{k - 1}}.{\rm{value}}} \right)} \right)$
    4     if offset = 0 then
    5        ${l_k}.{\rm{value}} $← $ {l_{k - 1}}.{\rm{value}} + {l_k}.{\rm{value}}$
    6       remove ${l_{k - 1}} $from L
    7      else
    8        if offset < 2 and not hasSpliterBetween
              (${l_{k - 1}}.{\rm{index}}, {\rm{}}{l_k}.{\rm{index}} $) then
    9          ${l_k}.{\rm{value}} $← ${l_{k - 1}}.{\rm{value}} + {l_k}.{\rm{value}}$
    10         remove lk-1from L
    11        else
    12         continue
    13    end for
    14    for each $ {l_k} \in \left\{ L \right\}_{k = 0}^m$ do
    15     (lng, lat)← getGeoCoordinateByLoc(lk.value)
    16      lk.value← lk.value+(lng, lat)
    17    end for
    18 end
    下载: 导出CSV
  • [1] 许小可, 文成, 张光耀, 等.新冠肺炎爆发前期武汉外流人口的地理去向分布及影响[J].电子科技大学学报, 2020, 49: 1-6 https://www.cnki.com.cn/Article/CJFDTOTAL-DKDX202003002.htm

    Xu Xiaoke, Wen Cheng, Zhang Guangyao, et al. The Geographical Destination Distribution and Effect of Outflow Population of Wuhan When the Outbreak of the 2019-nCoV Pneumonia[J]. Journal of University of Electronic Science and Technology of China, 2020, 49: 1-6 https://www.cnki.com.cn/Article/CJFDTOTAL-DKDX202003002.htm
    [2] Merler S, Ajelli M, Fumanelli L, et al. Spatiotemporal Spread of the 2014 Outbreak of Ebola Virus Disease in Liberia and the Effectiveness of Non-pharmaceutical Interventions: A Computational Modelling Analysis[J]. The Lancet Infectious Diseases, 2015, 15(2): 204-211 doi:  10.1016/S1473-3099(14)71074-6
    [3] Li Z, Yin W, Clements A, et al. Spatiotemporal Analysis of Indigenous and Imported Dengue Fever Cases in Guangdong Province, China[J]. BMC Infectious Diseases, 2012, 12(1): 132 doi:  10.1186/1471-2334-12-132
    [4] Xu B, Gutierrez B, Mekaru S, et al. Epidemiological Data from the COVID-19 Outbreak, Real-Time Case Information[J]. Scientific Data, 2020, 7(1): 1-6 doi:  10.1038/s41597-019-0340-y
    [5] 李德仁, 邵振峰, 于文博, 等.基于时空位置大数据的公共疫情防控服务让城市更智慧[J].武汉大学学报·信息科学版, 2020, 45(4): 475-487, 556 doi:  10.13203/j.whugis20200145

    Li Deren, Shao Zhenfeng, Yu Wenbo, et al. Public Epidemic Prevention and Control Services Based on Big Data of Spatiotemporal Location Make Cities More Smart[J]. Geomatics and Information Science of Wuhan University, 2020, 45(4): 475-487, 556 doi:  10.13203/j.whugis20200145
    [6] 北京极海纵横信息技术有限公司. gh-2019-nCoV-community-data[OL]. https://gitee.com/geohey/gh-2019-nCoV-community-data, 2020

    GeoHey. gh-2019-nCoV-community-data[OL]. https://gitee.com/geohey/gh-2019-nCoV-community-data, 2020
    [7] 北京航空航天大学大数据科学与脑机智能高精尖创新中心.新冠疫情确诊患者轨迹结构化数据[OL]. https://github.com/BDBC-KG-NLP/COVID-19-tracker, 2020

    Beijing Advanced Innovation Center for Big Data and Brain Computing, Beihang University. COVID-19-tracker[OL]. https://github.com/BDBC-KG-NLP/COVID-19-tracker, 2020
    [8] Young T, Hazarika D, Poria S, et al. Recent Trends in Deep Learning Based Natural Language Processing[J]. IEEE Computational Intelligence Magazine, 2018, 13(3): 55-75 doi:  10.1109/MCI.2018.2840738
    [9] Corvey W J, Vieweg S, Rood T, et al. Twitter in Mass Emergency: What NLP Can Contribute[C]. NAACL HLT 2010 Workshop on Computational Linguistics in a World of Social Media, Los Angeles, California, USA, 2010
    [10] Qin T, Xiao R, Fang L, et al. An Efficient Location Extraction Algorithm by Leveraging Web Contextual Information[C]. The 18th ACM SIGSPATIAL International Symposium on Advances in Geographic Information Systems, San Jose, CA, USA, 2010
    [11] Neubig G, Matsubayashi Y, Hagiwara M, et al. Safety Information Mining—What Can NLP Do in a Disaster[C]. The 5th International Joint Conference on Natural Language Processing, Chiang Mai, Thailand, 2011
    [12] Dhavase N, Bagade A M. Location Identification for Crime & Disaster Events by Geoparsing Twitter[C]. International Conference for Convergence for Technology, Pune, India, 2014
    [13] Sit M A, Koylu C, Demir I. Identifying Disaster-Related Tweets and Their Semantic, Spatial and Temporal Context Using Deep Learning, Natural Language Processing and Spatial Analysis: A Case Study of Hurricane Irma[J]. International Journal of Digital Earth, 2019, 12(11): 1205-1229 doi:  10.1080/17538947.2018.1563219
    [14] Wang M. Following the Spread of Zika with Social Media: The Potential of Using Twitter to Track Epidemic Disease[D]. Montreal, Quebec, Canada: Concordia University, 2017
    [15] Keller M, Freifeld C C, Brownstein J S. Automated Vocabulary Discovery for Geo-parsing Online Epidemic Intelligence[J]. BMC Bioinformatics, 2009, 10(1): 385 doi:  10.1186/1471-2105-10-385
    [16] Klein A, Magge A, O'Connor K, et al. A Chronological and Geographical Analysis of Personal Reports of COVID-19 on Twitter[J]. medRxiv, 2020, DOI:  10.1101/2020.04.19.20069948
    [17] Nikolajevs J, Jekabsons G. Automatic Extraction of Geographic Context from Textual Data[J]. Computational Science and Techniques, 2014, 2(1): 229-237
    [18] Otter D W, Medina J R, Kalita J K. A Survey of the Usages of Deep Learning for Natural Language Processing[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, DOI:  10.1109/TNNLS.2020.2979670
    [19] Gull K, Padhye S, Jain D S. A Comparative Analysis of Lexical/NLP Method with WEKA's Bayes Classifier[J]. International on Recent and Innovation Trends in Computing and Communication (IJRITCC), 2017, 5(2): 221-227
    [20] 周晓光, 赵肄江, 李光强, 等.顾及信誉的众源时空数据模型[J].武汉大学学报·信息科学版, 2018, 43(1): 10-16 doi:  10.13203/j.whugis20150378

    Zhou Xiaoguang, Zhao Yijiang, Li Guangqiang, et al. Crowdsourcing Spatio-Temporal Data Model Considering Reputation[J]. Geomatics and Information Science of Wuhan University, 2018, 43(1): 10-16 doi:  10.13203/j.whugis20150378
    [21] Antoniou V, Skopeliti A. Measures and Indicators of VGI Quality: An Overview[J]. ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2015, Ⅱ-3/W5: 345-351
    [22] 王劲峰, 徐成东.地理探测器:原理与展望[J].地理学报, 2017, 72(1): 116-134 https://www.cnki.com.cn/Article/CJFDTOTAL-DLXB201701011.htm

    Wang Jinfeng, Xu Chengdong. Geodetector: Principle and Prospective[J]. Acta Geographica Sinica, 2017, 72(1): 116-134 https://www.cnki.com.cn/Article/CJFDTOTAL-DLXB201701011.htm
  • [1] 郭迟, 王梦媛, 高柯夫, 刘经南, 左文炜.  面向重大公共卫生事件的位置服务技术——以COVID-19疫情为例 . 武汉大学学报 ● 信息科学版, 2021, 46(2): 150-158. doi: 10.13203/j.whugis20200560
    [2] 曹闻, 戴浩然, 童晓冲, 彭斐琳, 冯晨光, 吴子满.  离散格网下的COVID-19隔离与收治人为防控措施模型 . 武汉大学学报 ● 信息科学版, 2021, 46(2): 167-176. doi: 10.13203/j.whugis20200343
    [3] 唐迁, 杜博, 恽爽, 高莉, 吴爽, 张超, 兰猛, 陈紫业, 李亮, 查云飞, 张良培, 李平湘.  COVID-19 CT影像智能诊断系统 . 武汉大学学报 ● 信息科学版, 2020, 45(6): 846-853. doi: 10.13203/j.whugis20200225
    [4] 冯明翔, 方志祥, 路雄博, 谢泽丰, 熊盛武, 郑猛, 黄守倩.  交通分析区尺度上的COVID-19时空扩散推估方法:以武汉市为例 . 武汉大学学报 ● 信息科学版, 2020, 45(5): 651-657, 681. doi: 10.13203/j.whugis20200141
    [5] 张萍, 李必军, 郑玲, 王建培.  一种基于改进LCSS的相似轨迹提取方法 . 武汉大学学报 ● 信息科学版, 2020, 45(4): 550-556. doi: 10.13203/j.whugis20180406
    [6] 张寅, 蔡旭阳, 闫钧华, 苏恺, 张琨.  联合时空信息和轨迹关联的空中多目标检测 . 武汉大学学报 ● 信息科学版, 2020, 45(10): 1533-1540. doi: 10.13203/j.whugis20190359
    [7] 张新, 林晖, 朱长明, 王劲峰, 李满春, 徐成东, 胡茂桂, 孟斌, 曹春香.  COVID-19疫情早期中国确诊时间的时空特征及动态过程分析 . 武汉大学学报 ● 信息科学版, 2020, 45(6): 791-797. doi: 10.13203/j.whugis20200255
    [8] 应申, 徐雅洁, 窦小影, 陈学业, 赵军, 郭晗.  地理位置关联的COVID-19传播时空分析 . 武汉大学学报 ● 信息科学版, 2020, 45(6): 798-807. doi: 10.13203/j.whugis20200241
    [9] 贾涛, 李琦, 马楚, 李雨芊.  武汉市出租车轨迹二氧化碳排放的时空模式分析 . 武汉大学学报 ● 信息科学版, 2019, 44(8): 1115-1123. doi: 10.13203/j.whugis20170334
    [10] 熊汉江, 郭胜, 郑先伟, 周妍.  室内行人移动行为识别及轨迹追踪 . 武汉大学学报 ● 信息科学版, 2018, 43(11): 1696-1703. doi: 10.13203/j.whugis20170066
    [11] 解愉嘉, 刘学军.  顾及轨迹地理方向的监控视频浓缩方法 . 武汉大学学报 ● 信息科学版, 2017, 42(1): 70-76. doi: 10.13203/j.whugis20160080
    [12] 康朝贵, 刘瑜, 邬伦.  城市手机用户移动轨迹时空熵特征分析 . 武汉大学学报 ● 信息科学版, 2017, 42(1): 63-69, 129. doi: 10.13203/j.whugis20160203
    [13] 唐炉亮, 靳晨, 杨雪, 阚子涵, 任畅.  基于GPS时空轨迹的路网拓扑自动变化检测 . 武汉大学学报 ● 信息科学版, 2017, 42(10): 1381-1386. doi: 10.13203/j.whugis20150662
    [14] 邬伦, 刘磊, 李浩然, 高勇.  基于条件随机场的中文地名识别方法 . 武汉大学学报 ● 信息科学版, 2017, 42(2): 150-156. doi: 10.13203/j.whugis20141009
    [15] 刘汇慧, 阚子涵, 孙飞, 段倩, 唐炉亮, 吴华意.  采用轨迹大数据探测短时非营运行为 . 武汉大学学报 ● 信息科学版, 2016, 41(9): 1192-1198. doi: 10.13203/j.whugis20150569
    [16] 唐炉亮, 阚子涵, 黄方贞, 李清泉, SHAW Shihlung, 董坤.  利用低频时空GPS轨迹进行交叉口通行时间探测 . 武汉大学学报 ● 信息科学版, 2016, 41(1): 136-142. doi: 10.13203/j.whugis20130822
    [17] 向隆刚, 龚健雅, 吴涛, 李文海.  一种面向Stop/Move抽象的轨迹时空关系 . 武汉大学学报 ● 信息科学版, 2014, 39(8): 956-962. doi: 10.13203/j.whugis20130061
    [18] 张恒才, 陆锋, 陈洁.  移动对象时空轨迹及社交关系一体化数据模型 . 武汉大学学报 ● 信息科学版, 2014, 39(6): 711-718. doi: 10.13203/j.whugis20140125
    [19] 乐小虬, 杨崇俊, 于文洋.  基于空间语义角色的自然语言空间概念提取 . 武汉大学学报 ● 信息科学版, 2005, 30(12): 1100-1103.
    [20] 任来平, 赵俊生, 翟国君, 黄谟涛.  机载激光测深海面扫描轨迹计算与分析 . 武汉大学学报 ● 信息科学版, 2002, 27(2): 138-142.
  • 加载中
图(4) / 表(1)
计量
  • 文章访问数:  38
  • HTML全文浏览量:  10
  • PDF下载量:  17
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-08-26
  • 刊出日期:  2021-02-05

一种COVID-19病例个体时空轨迹交互式提取与质量评估方法

doi: 10.13203/j.whugis20200290
    基金项目:

    中国科学院战略性先导科技专项 XDA19090114

    嘉善县科技计划项目 2018A08

    浙江中科院应用技术研究院项目 ZK-CX-2018-04

    作者简介:

    张国永,博士生,主要从事三维GIS与虚拟地理环境研究。zhanggy@radi.ac.cn

    通讯作者: 龚建华,博士,研究员。gongjh@radi.ac.cn
  • 中图分类号: P208

摘要: 针对当前新型冠状病毒肺炎(coronavirus disease 2019,COVID-19)病例个体时空轨迹描述文本高度非结构化的特点,提出了一种基于自然语言处理(natural language processing, NLP)辅助的交互式轨迹提取方法,用于提高轨迹提取的效率和质量。设计了交互式轨迹提取和质量评估流程,研究并实现了地址分割与组合算法、轨迹质量评估算法等关键技术。以黑龙江本土COVID-19聚集病例为例,通过轨迹提取效率和质量对比实验,验证了该方法的有效性和实用性。实验结果表明,与无NLP辅助的提取方法相比,该方法的轨迹提取效率得到了显著提升;同时,依据轨迹定量可信度评价结果,人机交互式的提取方法还可有效解决算法轨迹自动提取中存在的轨迹点遗漏、位置错误等问题。

English Abstract

张国永, 龚建华, 孙麇, 周洁萍, 李文航, 张利辉, 汪东川, 李文宁, 胡卫东, 樊鸿奎. 一种COVID-19病例个体时空轨迹交互式提取与质量评估方法[J]. 武汉大学学报 ● 信息科学版, 2021, 46(2): 177-183. doi: 10.13203/j.whugis20200290
引用本文: 张国永, 龚建华, 孙麇, 周洁萍, 李文航, 张利辉, 汪东川, 李文宁, 胡卫东, 樊鸿奎. 一种COVID-19病例个体时空轨迹交互式提取与质量评估方法[J]. 武汉大学学报 ● 信息科学版, 2021, 46(2): 177-183. doi: 10.13203/j.whugis20200290
ZHANG Guoyong, GONG Jianhua, SUN Jun, ZHOU Jieping, LI Wenhang, ZHANG Lihui, WANG Dongchuan, LI Wenning, HU Weidong, FAN Hongkui. An Interactive Individual Spatiotemporal Trajectory Extraction and Quality Evaluation Method for COVID-19 Cases[J]. Geomatics and Information Science of Wuhan University, 2021, 46(2): 177-183. doi: 10.13203/j.whugis20200290
Citation: ZHANG Guoyong, GONG Jianhua, SUN Jun, ZHOU Jieping, LI Wenhang, ZHANG Lihui, WANG Dongchuan, LI Wenning, HU Weidong, FAN Hongkui. An Interactive Individual Spatiotemporal Trajectory Extraction and Quality Evaluation Method for COVID-19 Cases[J]. Geomatics and Information Science of Wuhan University, 2021, 46(2): 177-183. doi: 10.13203/j.whugis20200290
  • 自2020年初新型冠状病毒肺炎(coronavirus disease 2019,COVID-19)疫情暴发以来[1],国家、省卫健委会在官网实时发布当日疫情的确诊、新增、疑似病例以及部分病例的轨迹等数据。考虑到疫情暴发期时间紧迫,通常发布的病例轨迹以描述性文本为主,一般是非结构化、上下文相关的,有的甚至存在语义模糊的情况。随着疫情得到有效控制,获取准确、结构化的病例个体时空轨迹成为开展疫情科学研究的迫切需求,尤其是针对疫情的传播过程、扩散规律以及流行病学调查等涉及疾病时空分布的研究,准确的时空轨迹数据是开展相关研究的基础[2-4]

    文献[5]中提出,由于当前疫情时空大数据存在轨迹数据不全、精度不高等问题,因此难以满足疫情防控的需要。疫情期间,腾讯看点、南都传媒、21世纪财经等媒体根据卫健委公布的数据对病例空间分布开展了数据整理与可视化工作[6]。北京航空航天大学大数据科学与脑机智能高精尖创新中心发布了12个省、市的病例轨迹数据[7],这些数据是开展疫情实时防控和早期科学研究的重要数据源。然而,由于疫情数据非结构化和数据量庞大的特点,当前发布的数据集普遍存在轨迹数据不完整和缺乏对数据质量的有效评估等问题,这在一定程度上限制了疫情数据的进一步应用。

    疫情轨迹数据量大,若完全依靠人工提取,工作量巨大。随着人工智能(artificial intelligence,AI)技术的发展,尤其是自然语言处理(natural language processing,NLP)技术的成熟[8],使得从非结构化文本数据中自动提取准确的地址和时间成为可能[9-10]。目前,基于AI的NLP方法已被广泛用于灾害应急管理[11-13]、传染病防控[14-16]等领域的位置信息快速提取。但是,由于病例轨迹描述性文本中存在口语化、歧义和模糊性语义等问题,完全依赖自动化提取的病例轨迹信息很难确保完整性和准确性[17]

    因此,综合考虑自动提取与人工提取病例轨迹数据两方面的优势和不足,本文设计了基于NLP的病例个体时空轨迹人机交互式提取和质量评估方法,实现了交互式的轨迹提取原型系统,以黑龙江聚集性病例为研究对象,开展多用户并行提取实验,以验证所提方法的有效性。

    • 1)轨迹源数据非结构化

      由于疫情的复杂性、突发性以及疫情防控的时效性等,公布的疫情数据通常以非结构化的描述性信息为主,虽然时效性强,但由于结构松散,且存在语义不明确、模糊及内容上下文相关的情况,因此很难通过计算机自动提取完整、准确的结构化时空轨迹信息,导致轨迹数据不完备。

      2)轨迹数据不完备

      疫情期间,腾讯看点、南都传媒共完成10 447个位置点提取(截至2020年3月20日,不含武汉市病例)[6]。相较于当前全国确诊病例总数84 416例(2020年5月8日丁香园数据),武汉市外病例的空间位置提取仅完成约31%,还有大量病例的位置数据需要采集和完善。在病例轨迹采集方面,北京航空航天大学大数据科学与脑机智能高精尖创新中心发布了12个省、市共4 634例病例轨迹数据(截至2020年3月22日)[7],同样也仅完成部分病例数据的轨迹采集工作。

      3)轨迹数据质量缺乏评估

      除数据不完备外,自动提取生成的轨迹数据也缺乏有效的质量评估。在已发布的疫情轨迹文本中,关于地点的描述存在名称不规范、重名以及某条轨迹描述中包含多个地址信息等情况,这样会造成轨迹位置点提取失败、空间位置点识别不全、重名地址引起的坐标错误等问题。

    • 针对当前轨迹提取中存在的问题,本文设计了NLP算法辅助下的交互式轨迹提取框架,如图 1所示。根据轨迹数据采集流程,该框架主要分为3个模块:①病例轨迹原始数据采集,其主要功能是收集卫健委、官方新闻媒体等发布的权威病例信息;②自动化轨迹提取,利用NLP算法自动分析轨迹中包含的地址、时间等有效信息,生成初步的格式化病例轨迹时空数据;③交互式轨迹数据质量评估、更新、选取,用户参考智能算法预先提取的候选地址和时间信息,结合电子地图对轨迹进行交互式核实验证,并根据验证结果对自动生成的轨迹进行选取、修改、补充等操作。

      图  1  交互式轨迹提取框架

      Figure 1.  Framework of Interactive Trajectory Extraction

    • 随着AI技术的快速发展,基于深度学习的NLP词法分析已成为从非结构化文本字符串中提取结构化信息的有效手段,与传统的基于语法的分词算法相比,NLP具有更高的精度和鲁棒性[18-19]以及更好的可扩展性。利用NLP分析疫情轨迹文本中的地址和时间信息,可以在短时间内自动完成海量轨迹数据的初步提取,显著提高了轨迹提取的效率。

      词法分析后,每条自动提取的轨迹中会生成包含多个地址(LOC)、组织机构(ORG)、动词(V)以及时间(TIME)词性的字符串链表,而不同的LOC、ORG之间可能存在层次连接关系。为了实现不同地址之间的正确组合,本文设计了地址组合与分割算法,该算法主要通过两个规则判断不同地址词语之间的关系:一是根据不同地址描述词语之间的位置关系判断两个地址之间是关联还是相互独立关系;二是根据地址描述词语间是否存在分割动词来判断两个地址是否是独立地址。具体实现如下:

      算法名称:getFullAddress(L, S)
      /*该算法返回经过合并和分割的地址列表
      /*L为语法分割后的地址字典,其key为字符在原文本中的偏移量,value为提取的地址文本
      /*S为语法分割后的地址分割符字典,其key为字符在原文本中的偏移量,value为分隔符文本
      /* hasSpliterBetween(start, end)为判断两个地址之间是否有分隔符的方法
      /* getGeoCoordinateByLoc(loc)为根据地址名称从高德地理编码API中查询经纬度的方法
      1 begin
      2   for each $ {l_k} \in \left\{ L \right\}_{k = 1}^n$do
      3     offset← $ {l_k}.{\rm{index}} - \left( {{\rm{}}{l_{k - 1}}.{\rm{index}} + {\rm{length}}\left( {{l_{k - 1}}.{\rm{value}}} \right)} \right)$
      4     if offset = 0 then
      5        ${l_k}.{\rm{value}} $← $ {l_{k - 1}}.{\rm{value}} + {l_k}.{\rm{value}}$
      6       remove ${l_{k - 1}} $from L
      7      else
      8        if offset < 2 and not hasSpliterBetween
                (${l_{k - 1}}.{\rm{index}}, {\rm{}}{l_k}.{\rm{index}} $) then
      9          ${l_k}.{\rm{value}} $← ${l_{k - 1}}.{\rm{value}} + {l_k}.{\rm{value}}$
      10         remove lk-1from L
      11        else
      12         continue
      13    end for
      14    for each $ {l_k} \in \left\{ L \right\}_{k = 0}^m$ do
      15     (lng, lat)← getGeoCoordinateByLoc(lk.value)
      16      lk.value← lk.value+(lng, lat)
      17    end for
      18 end

      将LOC、ORG词性词语的位置偏移量和结果存储到字典L中,同时将表示运动倾向的动词作为地址分隔符存储到字典S中,这类动词主要包括“在”“去”“至”“到达”“乘”“往”等。通过不同地址之间以及地址与分隔符之间的位置关系,将地址链表组合或分割为完整的地址。调用高德地图提供的地理编码应用程序接口(application programming interface,API),实现对地址的准确地理坐标查询。

    • 交互式轨迹提取流程如图 2所示。首先从卫健委官网获取病例轨迹信息;然后通过轨迹自动提取算法从描述性的轨迹文本中提取地址和时间字符串作为初步轨迹点;再根据轨迹状态分别进行如下操作:对未检验或被评价为存在问题(即可信度≤0.5)的轨迹,用户首先利用可视化平台对轨迹的完整性进行评估,对未能自动识别或提取错误的轨迹点由用户手动补充;然后根据轨迹点坐标是否准确确认轨迹或进行简单编辑后确认(比如移动位置),对经过用户修改和确认的轨迹,其他用户可对该轨迹进行多次核查,若该轨迹正确,则评价得分+1,反之评价得分-1;最后利用§2.4的质量评估算法计算该轨迹的可信度。

      图  2  交互式轨迹提取流程

      Figure 2.  Workflow of Interactive Trajectory Extraction

    • 为定量评价每条轨迹的质量,参考自发地理信息中数据质量评价方法[20-21],给轨迹设置可信度C,其取值范围介于0~1之间,数值越大,表示轨迹可信度越高。令si为用户对该线索可信度的评价,其取值为-1或1。当用户对该轨迹给予肯定评价(即认为该轨迹和轨迹点完整、坐标准确),则si=1;相反,如果用户认为该轨迹不正确或不完整时,si=-1。考虑到用户主观评价可能出错,质量评估采取冗余化设计,即同一轨迹支持多个不同用户重复评价,对多次评价累计求和计算总体评价值V,即:

      $$ V = \mathop \sum \limits_{i = 0}^n {s_i} $$ (1)

      将得分V映射到(0,1)的范围,计算该轨迹的可信度C

      $$ C = \frac{1}{{1 + {{\rm{e}}^{ - v}}}} $$ (2)

      本文中,首次提取未经核查的轨迹的初始可信度为0.5,即评价得分V=0时C的取值。

    • 根据§2交互式轨迹提取算法和流程,设计了轨迹提取原型系统。系统整体采用B/S架构,前端利用高德地图JavaScript API作为地图引擎,实现对轨迹点地理坐标在地图环境下的交互验证,如图 3所示。当选择列表中的地址时,地图窗口显示位置图标,并自动跳转到地址经纬度所对应的区域,在地图窗口中移动定位图标后,列表中地址的经纬度也会同步变化。后端利用百度智能计算提供的NLP词法分析API,自动提取疫情文本中的地址、时间以及描述轨迹运动状态的动词字符串。

      图  3  交互式轨迹提取系统

      Figure 3.  Interactive Trajectory Extraction System

    • 以2020年4月11日黑龙江省哈尔滨市出现的聚集性病例为研究对象,从黑龙江卫健委网站采集患者轨迹文本信息,截至4月20日,共收集73例本地确诊和无症状患者病例的有效轨迹信息。

    • 召集9人参与对比实验,8人参与轨迹提取实验,1人参与数据核查(质量评估)实验。轨迹提取实验分为两部分:(1)无NLP辅助的轨迹提取实验,需要实验者自行从描述性的病例轨迹文本中识别地址和时间信息。(2)有NLP辅助的交互式轨迹提取实验(本文提出的方法),首先自动提取病例轨迹的地址和时间信息,然后对错误或未提取的轨迹由用户手动提取补充。实验完成后,共采集到73条常住地址和543条活动轨迹。

    • 数据采集完成后,对病例常住地址和活动轨迹的提取完成时间进行统计分析。活动轨迹提取耗时如图 4(a)所示,有自动提取算法辅助的情况下,耗时中位数为3.21 min;无自动提取算法辅助的情况下,耗时中位数为6.45 min,两者差值的中位数为-2.96 min。常住地址提取耗时如图 4(b)所示,有自动提取算法辅助的情况下,耗时中位数为12.57 s;无自动提取算法辅助的情况下,耗时中位数为41.61 s,两者差值的中位数为-29.87 s。

      图  4  活动轨迹和常住地址提取耗时

      Figure 4.  Time Consuming of Movement Trajectory and Resident Address Extraction

      为检验两者在统计学上是否存在显著差异,分别对两种情况下的轨迹提取平均耗时采用Wilcoxon符号秩检验算法进行显著性检验,结果显示,常住地址提取和活动轨迹提取平均耗时差值的p值均小于0.01,说明本文提出的方法可有效提高轨迹提取的效率。按耗时的中位数计算,活动轨迹提取的效率大约提高了1倍,常住地址提取的效率大约提高了2.3倍。

    • 1)轨迹提取数量

      实验结果显示,在常住地址提取中,69个住址被自动提取,约占病例总数的94.52%。在活动轨迹提取中,自动提取轨迹点包括NLP自动提取的轨迹点以及首次人工提取后的缓存轨迹点,其均值约占全部轨迹点的90.06%,总体上达到了较高的提取率,但其标准差约为14.32%,表明轨迹自动提取率的分布并不稳定,在某些轨迹中自动提取的比例较低。543条活动轨迹中,自动提取的轨迹为400条,约占轨迹总数的73.66%。

      2)轨迹提取质量

      轨迹质量核查结果显示,常住地址的轨迹中,69条轨迹的可信度达0.73,4条轨迹的可信度为0.27(全为自动提取),即约94.52%的常住地址在检验中被认为是准确的。活动轨迹中,503条轨迹的可信度达0.73,其余40条轨迹的可信度为0.27,即约92.63%的轨迹在检验中被认为是准确的。

      3)轨迹空间分布异质性

      轨迹点的空间分布表现出一定的异质性(分异性)。为度量并归因其分异性特征,本文采用王劲峰等[22]提出的地理探测器模型(http://www.geodetector.cn/)进行分异以及因子探测和交互作用探测。通过分析地理空间数据不同分层间的整体差异性,定量测度自变量(X)对因变量(Y)的影响程度。度量值q的计算方式为:

      $$ q = 1 - \frac{{\sum\limits_{h = 1}^L {{N_h}\sigma _h^2} }}{{N{\sigma ^2}}} $$ (3)

      式中,N为样本总量;Nh为层h中的样本数量;L为变量Y或因子X的分层,即分类或分区的数量;σ2σh2分别代表总样本和分层样本方差。在物理意义上,q表示X解释了q×100%的Y,且值越大,表示对属性Y的解释力越强。

      本文选取哈尔滨市2020年1 km分辨率的人口密度(X1)和病例轨迹位置与区域中心医院距离(X2)作为自变量,研究其与轨迹点空间分布(Y1)之间的关系。地理探测器分析结果显示,病例位置距医院距离的q值为0.6,人口密度的q值为0.3,两者显著性检验p值均小于0.01,说明与医院距离是轨迹点空间分异的重要控制因素。qX1X2)约为0.98,表明X1X2的交互作用大于单因素的作用,两者共同解释了98%的轨迹空间分异性。此外,利用地理探测模型计算轨迹质量Y2与因子X1X2的关系,其中Y2为二值型,-1为可信度较低,1为可信度较高。地理探测器分析结果显示,人口密度的q值为0.41,病例位置距医院距离的q值为0.25,两者显著性检验p值均小于0.01,说明人口密度对轨迹质量有一定的解释力。在人口密度类型区内,其等级为5,即密度为4 000~5 000人/km2层的轨迹质量为-0.87,表明与其他等级有显著区别。

      4)轨迹误差传递

      通过分析轨迹数据生成过程中的误差传递,结果显示,在轨迹提取阶段大约有8.32%的轨迹存在误差。同时,分析轨迹中自动提取和人工提取的轨迹点质量,可以得出,人工提取的轨迹点几乎没有误差(仅有一个轨迹点存在误差),自动提取的轨迹点中约5.3%的轨迹点存在误差,而轨迹人工编辑阶段仅消减了0.54%的误差轨迹点以及0.92%的误差轨迹。通过回访轨迹录入者发现,在不熟悉的区域对不明确的地址,录入者更倾向于自动提取的结果。因此,应重点加强对自动提取轨迹的核查工作。此外,轨迹提取过程中应优先选择对研究区域熟悉的用户参与,以提高轨迹质量及核查评价的可信度。

    • 准确的病例个体时空轨迹是开展疫情传播规律研究的基础。为高效、准确地提取个体轨迹,本文设计了基于自然语言处理辅助的交互式轨迹提取方法,并对轨迹提取效率和质量进行了验证。实验结果显示,交互式轨迹提取方法可有效提高轨迹提取的效率,并能有效解决自动化轨迹提取算法中存在的轨迹及轨迹点提取遗漏问题。自动提取与人工干预相辅相成,两者结合可共同实现COVID-19病例个体轨迹的高效、准确提取。

      此外,本文实现的交互式轨迹提取原型系统支持在手机、平板、笔记本电脑等智能终端运行,可以作为流行病学调查的辅助工具,利用地图作为引导,辅助病例回忆起更多、更准确的活动轨迹,并通过平台进行自助标绘,提高流行病学调查的效率和精度。

参考文献 (22)

目录

    /

    返回文章
    返回