Weighted Geocoding Method Based on Chinese Word Segmentation and Its Application to Spatial Positioning of COVID-19 Epidemic Prevention and Control
-
摘要: 地理编码是实现带有地址描述的信息空间定位的重要途径。比较研究了国内外地理编码方法,分析了中文地址的组成方式和定位方法。针对中文地址高度复杂性和多样性的特征,设计了一种顾及多种语义的地址匹配算法,并以武汉市新型冠状病毒肺炎(coronavirus disease 2019,COVID-19)病人入院时登记的地址描述信息为例,对匹配算法进行了实验验证,将匹配结果进行空间定位。结果表明,所提出的中文分词的加权地理编码方法匹配高效、定位准确、方法智能,能够实现基于语义的COVID-19病人入院时登记地址的快速定位,可为疫情防控提供准确的空间定位信息。Abstract: Locating the coronavirus disease 2019 (COVID-19)cases in the accurate place is important in epidemic prevention and control. Geocoding is an effective method to achieve information space positioning with address description. The English based geocoding methodology is not suitable for Chinese address. Composition and positioning methods of Chinese address are discussed. According to the characteristics of high complexity and diversity of Chinese address, a Chinese word segmentation weighted address matching algorithm considering a variety of semantics is designed, including the same pronunciation but different Chinese word address, abbreviation and alias of Chinese address, different description of the same address. And the matching accuracy and efficiency of the algorithm are tested by using the COVID-19 cases' addresses in Wuhan. The result indicates the algorithm is efficient, accurate, and intelligent, which can realize the efficient location of the COVID-19 cases address, and provide accurate spatial location information for epidemic prevention and control by quickly positioning of the COVID-19 cases.
-
-
表 1 基于拼音校正的匹配结果示例
Table 1 Examples of Matching Results Based on Pinyin Correction
待匹配地址 匹配结果 江岸区四唯街麟趾社区四唯街道麟炙小区41号×××室 武汉市江岸区四唯街办事处麟趾小区9栋×层×××室易瑞丰地产 汉阳区龙阳街龙阳新村社区龙兴路龙阳欲园5-××-××× 武汉市汉阳区龙阳街龙阳新村社区龙阳御园8号楼4-×××号商铺 汉阳区五里墩街五春里社区玉龙湾2期×栋×××号 武汉市汉阳区五里墩街道钰龙湾临时营销中心 洪山区关山街枫林上城社区紫崧风铃上城9-×-×××× 武汉市洪山区关山街道桃园路紫松枫林上城×-×号门面 汉阳区江堤街江城明珠社区南庭煕园7栋×××号 武汉市汉阳区江堤街道下马湖路广电兰亭熙园2栋商铺 表 2 描述层级多样化地址的匹配结果示例
Table 2 Examples of Matching Results Based on Multiple Descriptions
待匹配地址 匹配结果 武汉市硚口区荣华街荣西社区57号×栋××号 武汉市硚口区武广商圈武胜路113号西70米荣华街荣西社区居民委员会 东湖高新区关东街关东社区民族大道99号健龙尚谷杰座1期3栋××号 武汉市东湖高新区民族大道99号3栋 汉南区沌阳街海滨城社区车城大道243号香格里居1栋×单元×楼×号 武汉市沌口开发区车城大道243号1栋 汉南区沌阳街江大园社区博学路1号江大园9栋-×单元-××号 武汉市沌口开发区博学路1号9栋 表 3 采用模糊匹配的结果示例
Table 3 Examples of Matching Results Based on Fuzzy Matching
待匹配地址 匹配结果 东湖高新区关东街江南社区观澜园路万科城花璟苑4-×-××××号 武汉市东湖高新区关南园8号4栋 武昌区黄鹤楼街读书社区武大人民医院 武昌区黄鹤楼街武汉大学人民医院 东西湖区泾河街永丰大队东胜擎天5-×-×× 东西湖区东顺擎天5栋 东西湖区泾河街永丰大队广景北区401-×× 东西湖区海景北区401栋×号 表 4 本文方法匹配核查结果
Table 4 Verification Results of the Proposed Matching Method in This Paper
匹配指标 数值项 正确匹配数/条 41 176 错误匹配数/条 5 552 模糊匹配数/条 2 284 漏匹配数/条 762 匹配准确率/% 82.72 -
[1] 冯明翔, 方志祥, 路雄博, 等.交通分析区尺度上的COVID-19时空扩散推估方法:以武汉市为例[J].武汉大学学报·信息科学版, 2020, 45(5):651-657, 681 doi: 10.13203/j.whugis20200141 Feng Mingxiang, Fang Zhixiang, Lu Xiongbo, et al. Traffic Analysis Zone-Based Epidemic Estimation Approach of COVID-19 Based on Mobile Phone Data: An Example of Wuhan[J]. Geomatics and Information Science of Wuhan University, 2020, 45(5):651-657, 681 doi: 10.13203/j.whugis20200141
[2] Edgar H P. Introduction to the GBF/DIME: A Prime[J]. Computers, Environment and Urban Systems, 1983, 8(3): 135-173 http://d.old.wanfangdata.com.cn/OAPaper/oai_doaj-articles_76a9da8cd7600c04e367656d9126d615
[3] Zandbergen P A. A Comparison of Address Point, Parcel and Street Geocoding Techniques[J]. Computers, Environment and Urban Systems, 2008, 32(3): 214-232 doi: 10.1016/j.compenvurbsys.2007.11.006
[4] ESRI. ArcGIS Online Geocoding Service[EB/OL]. http://geocode.arcgis.com/arcgis/, 2020
[5] Matci D K, Avdan U. Address Standardization Using the Natural Language Process for Improving Geocoding Results[J]. Computers, Environment and Urban Systems, 2018, 70: 1-8 doi: 10.1016/j.compenvurbsys.2018.01.009
[6] Briz-Redón Á, Martinez-Ruiz F, Montes F. Reestimating a Minimum Acceptable Geocoding Hit Rate for Conducting a Spatial Analysis[J/OL]. International Journal of Geographical Information Science, 2019, DOI: 10.1080/13658816.2019.1703994
[7] 国家语委语言文字应用研究所计算语言学研究室.信息处理用现代汉语词类标记集规范[J].语言文字应用, 2001(3): 16-20 doi: 10.3969/j.issn.1003-5397.2001.03.004 Computational Linguistics Lab, Institute of Applied Linguistice Ministry of Education. Standardized Set of Chinese POS Markers for Computational Uses[J]. Applied Linguistics, 2001(3): 16-20 doi: 10.3969/j.issn.1003-5397.2001.03.004
[8] 黄昌宁, 赵海.中文分词十年回顾[J].中文信息学报, 2007, 21(3): 8-19 doi: 10.3969/j.issn.1003-0077.2007.03.002 Huang Changning, Zhao Hai. Chinese Word Segmentation: A Decade Review[J]. Journal of Chinese Information Processing, 2007, 21(3): 8-19 doi: 10.3969/j.issn.1003-0077.2007.03.002
[9] 龙树全, 赵正文, 唐华.中文分词算法概述[J].电脑知识与技术, 2009, 5(10): 2 605-2 607 http://d.old.wanfangdata.com.cn/Periodical/dnzsyjs-itrzyksb200910029 Long Shuquan, Zhao Zhengwen, Tang Hua. Overview on Chinese Segmentation Algorithm[J]. Computer Knowledge and Technology, 2009, 5(10): 2 605-2 607 http://d.old.wanfangdata.com.cn/Periodical/dnzsyjs-itrzyksb200910029
[10] 刘韬.设立切分标志法在中文地址自动分词中的改进与应用[J].电脑知识与技术, 2009, 5(11): 2 828-2 829 http://d.old.wanfangdata.com.cn/Periodical/dnzsyjs-itrzyksb200911016 Liu Tao. The Improvement and Application of Marking in Chinese Address Automatic Segmentation[J]. Computer Knowledge and Technology, 2009, 5(11): 2 828-2 829 http://d.old.wanfangdata.com.cn/Periodical/dnzsyjs-itrzyksb200911016
[11] Li L, Wang W, He B, et al. A Hybrid Method for Chinese Address Segmentation[J]. International Journal of Geographical Information Science, 2018, 32(1): 30-48 doi: 10.1080/13658816.2017.1379084
[12] 孙存群, 周顺平, 杨林.基于分级地名库的中文地理编码[J].计算机应用, 2010, 30(7): 1 953-1 955, 1 958 http://d.old.wanfangdata.com.cn/Periodical/jsjyy201007072 Sun Cunqun, Zhou Shunping, Yang Lin. Chinese Geocoding Based on Classification Database of Geographical Names[J]. Journal of Computer Applications, 2010, 30(7): 1 953-1 955, 1 958 http://d.old.wanfangdata.com.cn/Periodical/jsjyy201007072
[13] 章意锋, 吴健平, 程怡, 等. ArcGIS中地理编码方法的改进[J].测绘与空间地理信息, 2007, 30(3): 116-119 doi: 10.3969/j.issn.1672-5867.2007.03.034 Zhang Yifeng, Wu Jianping, Cheng Yi, et al. The Improvement of Geocoding in ArcGIS[J]. Geomatics & Spatial Information Technology, 2007, 30(3): 116-119 doi: 10.3969/j.issn.1672-5867.2007.03.034
[14] 张林曼, 吴升.地理编码系统中地名地址分词算法研究[J].测绘科学, 2010, 35(2): 46-48 http://d.old.wanfangdata.com.cn/Periodical/chkx201002015 Zhang Linman, Wu Sheng. Research on Place Names and Address Segmentation in Geocoding System[J]. Science of Surveying and Mapping, 2010, 35(2): 46-48 http://d.old.wanfangdata.com.cn/Periodical/chkx201002015
[15] 张文豪, 卢山, 程光.基于LSTM网络的中文地址分词法的设计与实现[J].计算机应用研究, 2018, 35(12):1-2 http://d.old.wanfangdata.com.cn/Periodical/jsjyyyj201812029 Zhang Wenhao, Lu Shan, Cheng Guang. Design and Implementation of Chinese Address Segmentation Method Based on LSTM Networks[J]. Application Research of Computers, 2018, 35(12): 1-2 http://d.old.wanfangdata.com.cn/Periodical/jsjyyyj201812029
[16] Lin Y, Kang M, Wu Y, et al. A Deep Learning Architecture for Semantic Address Matching[J]. International Journal of Geographical Information Science, 2020, 34(3): 559-576 doi: 10.1080/13658816.2019.1681431
[17] 钱智勇, 周建忠, 童国平, 等.基于HMM的楚辞自动分词标注研究[J].图书情报工作, 2014, 58(4): 105-110 http://d.old.wanfangdata.com.cn/Periodical/tsqbgz201404017 Qian Zhiyong, Zhou Jianzhong, Tong Guoping, et al. Study on Automatic Word Segmentation of the Songs of Chu Based on HMM[J]. Library and Information Service, 2014, 58(4): 105-110 http://d.old.wanfangdata.com.cn/Periodical/tsqbgz201404017
[18] 宫法明, 朱朋海.基于自适应隐马尔可夫模型的石油领域文档分词[J].计算机科学, 2018, 45(6A): 97-100 http://d.old.wanfangdata.com.cn/Periodical/jsjkx2018z1020 Gong Faming, Zhu Penghai. Word Segmentation Based on Adaptive Hidden Markov Model in Oilfield[J]. Computer Science, 2018, 45(6A): 97-100 http://d.old.wanfangdata.com.cn/Periodical/jsjkx2018z1020
-
期刊类型引用(46)
1. 刘春雷,张媛静,陆晨明,李亚松,李剑锋. 基于时序InSAR的九龙江河口地区地面沉降时空演变规律及成因分析. 应用海洋学学报. 2024(01): 116-125 . 百度学术
2. 陈瑞瑞,孙颢月,朱紫若,蒋雪中,陈沈良,陈静. 黄河三角洲地面沉降研究进展与未来展望. 海岸工程. 2024(01): 1-23 . 百度学术
3. 赵凤阳,周吕,魏玉业. 融合改进鲸鱼算法解缠的梧州市地面沉降InSAR监测. 遥感信息. 2024(01): 52-58 . 百度学术
4. 侯永浩,张兴,李晓民,李宗仁. SBAS-InSAR技术在地质灾害调查中的应用. 北京测绘. 2024(10): 1477-1481 . 百度学术
5. 柳新强,姜刚,刘军峰,贺国伟. PS-InSAR和SBAS-InSAR的地表沉降监测对比研究——以雄安新区为例. 工程勘察. 2023(01): 62-67 . 百度学术
6. 曾敏,皮鹏程,赵信文,陈松,彭红霞,侯清芹,孙慧敏,薛紫萱. 基于PS-InSAR的珠江口典型填海造地区地面沉降时空特征研究. 华南地质. 2023(01): 116-126 . 百度学术
7. 李文慧,王志伟,赵月,王翔. 基于SNAP-StaMPS方法的高速公路沿线地面沉降监测. 测绘工程. 2023(03): 36-43 . 百度学术
8. 周定义,左小清,赵志芳,喜文飞,葛楚. 基于SBAS-InSAR和改进BP神经网络的城市地面沉降预测. 地质通报. 2023(10): 1774-1783 . 百度学术
9. 刘泽洲,卢才武,章赛,李萌,和郑翔. 基于多阈值目标提取的时序InSAR矿区地表沉降监测研究. 中国矿业. 2022(08): 79-85 . 百度学术
10. 王新田,刘增珉,陈建忠,梁菲,孟萌,李天鹤. 山东省地表形变InSAR监测与分析. 测绘通报. 2022(S2): 130-134 . 百度学术
11. 邓晓景,曲国庆,张建霞,席换,王晖. 融合升降轨PS-InSAR东营市地面沉降监测. 山东理工大学学报(自然科学版). 2021(01): 10-16 . 百度学术
12. 杨利,薛东剑,王海方,付林,张婷. 五龙沟矿区时序InSAR地表形变监测. 中国矿业. 2021(03): 107-112 . 百度学术
13. 程琳琳,杨玉曼,李月颖,孙梦尧,王振威,焦路尧. 矿业型村镇转型期发展问题分析与策略研究:以北京市门头沟区为例. 中国矿业. 2021(03): 101-106 . 百度学术
14. 王辉,曾琪明,焦健,陈继伟. 结合序贯平差方法监测地表形变的InSAR时序分析技术. 北京大学学报(自然科学版). 2021(02): 241-249 . 百度学术
15. 付云霞,管勇,王晓丹,王建收,尹政,周晓雪,王青,徐美君. 大型河口三角洲地面沉降机制研究——以黄河三角洲为例. 海岸工程. 2021(02): 83-95 . 百度学术
16. 关金环,高明亮,宫辉力. 首都国际机场区域差异性沉降原因探讨. 测绘科学. 2021(09): 67-75 . 百度学术
17. 柴华彬,胡吉彪,耿思佳. 融合实测数据的地表沉降SBAS-InSAR监测方法. 煤炭学报. 2021(S1): 17-24 . 百度学术
18. 程霞,张永红,邓敏,吴宏安,康永辉. Sentinel-1A卫星的黄河三角洲近期地表形变分析. 测绘科学. 2020(02): 43-51 . 百度学术
19. 卢旺达,韩春明,岳昔娟,赵迎辉,周格仪. 基于Sentinel-1A数据的天津地区PS-InSAR地面沉降监测与分析. 遥感技术与应用. 2020(02): 416-423 . 百度学术
20. 向淇文,潘建平,张广泽,徐正宣,张定凯,涂文丽. 基于SBAS技术的川藏铁路折多山地区地表形变监测与分析. 测绘工程. 2020(04): 48-54+59 . 百度学术
21. 张金盈,崔靓,刘增珉,王新田,林琳,徐凤玲. 利用Sentinel-1 SAR数据及SBAS技术的大区域地表形变监测. 测绘通报. 2020(07): 125-129 . 百度学术
22. 狄桂栓. 基于InSAR技术的黄河三角洲区域地表形变浅析. 地理空间信息. 2020(09): 106-109+8 . 百度学术
23. 高辉,罗孝文,吴自银,阳凡林. 基于时序InSAR的珠江口大面积地面沉降监测. 海洋学研究. 2020(02): 81-87 . 百度学术
24. 韩红花. 黄河三角洲区域地表形变监测研究. 山东国土资源. 2020(11): 69-72 . 百度学术
25. 夏元平,陈志轩,张毅. 南昌市地面沉降InSAR监测及影响因子分析. 测绘科学. 2020(11): 115-122+129 . 百度学术
26. 贺跃光,肖亮. 某水溶开采矿区短基线集InSAR高相干点探测. 中国锰业. 2019(01): 89-93 . 百度学术
27. 张静,丁黄平,刘纯,谢文然,时雨. 基于InSAR技术的盘锦地区地面沉降研究. 世界地质. 2019(02): 574-580 . 百度学术
28. 韩红超,符华年,张文峰,温浩. InSAR、水准多维沉降监测体系建设及应用研究. 测绘通报. 2019(S1): 236-241 . 百度学术
29. 师芸,李伟轩,唐亚明,席磊,孟欣. 时序InSAR技术在地球环境监测及其资源管理中的应用:以交城-清徐地区为例. 武汉大学学报(信息科学版). 2019(11): 1613-1621 . 百度学术
30. 杨帆,王道顺,张磊,张子文. 基于时序InSAR的隧道工程形变监测与分析. 测绘与空间地理信息. 2019(10): 1-4 . 百度学术
31. 黄洁慧,谢谟文,王立伟. 基于SBAS-InSAR技术的白格滑坡形变监测研究. 人民长江. 2019(12): 101-105 . 百度学术
32. 黄洁慧,谢谟文,王立伟. 基于差分干涉合成孔径雷达技术的米林滑坡形变监测. 科学技术与工程. 2019(25): 7-12 . 百度学术
33. 李锁乐,吴宏安,张永红,康永辉,左振华. 包头市地面沉降高分辨率时序InSAR监测. 测绘科学. 2018(09): 76-80 . 百度学术
34. 杨帆,张磊,张子文,赵增鹏. 利用短基线集InSAR技术监测抚顺市地面沉降. 测绘通报. 2018(03): 84-88 . 百度学术
35. 张静,冯东向,綦巍,周雪,赵玉星. 基于SBAS-InSAR技术的盘锦地区地面沉降监测. 工程地质学报. 2018(04): 999-1007 . 百度学术
36. 贺晓阳,赵盟,程存付. 小基线集技术在矿区地表形变监测中的应用. 河南科技. 2018(13): 97-98 . 百度学术
37. LIU Xiao,LIU Jie,FENG Xiuli. Inversion and Prediction of Consolidation Settlement Characteristics of the Fluvial Sediments Based on Void Ratio Variation in the Northern Modern Yellow River Subaqueous Delta, China. Journal of Ocean University of China. 2018(03): 545-554 . 必应学术
38. 李达,邓喀中,高晓雄,牛海鹏. 基于SBAS-InSAR的矿区地表沉降监测与分析. 武汉大学学报(信息科学版). 2018(10): 1531-1537 . 百度学术
39. 张炜,张伟胜,张东升,胡文敏,孙毓言,唐佳佳. 采动覆岩活动规律的“空-地”监测技术. 中国矿业大学学报. 2018(06): 1212-1223 . 百度学术
40. 王小侣. 水电站大坝400V备自投改造研究. 河南科技. 2018(19): 90-91 . 百度学术
41. 张磊,杨帆,李超飞,赵增鹏,张子文. 宁波地面沉降的短基线集监测与分析. 测绘科学. 2017(12): 77-82 . 百度学术
42. 陈继伟,曾琪明,焦健,赵斌臣. Sentinel-1A卫星TOPS模式数据的SBAS时序分析方法——以黄河三角洲地区为例. 国土资源遥感. 2017(04): 82-87 . 百度学术
43. 王萍. 沉降观测技术在高层建筑施工中的应用. 建材与装饰. 2017(35): 19-20 . 百度学术
44. 史秀保,徐宁,温浩,李春进. 一种小基线地表形变监测精度评价方法. 测绘通报. 2016(08): 70-73+91 . 百度学术
45. 于丹,杨子玉,庄岩,于均园. 时序分析法在沈阳地铁二号线变形预测的应用. 沈阳建筑大学学报(自然科学版). 2016(03): 453-458 . 百度学术
46. 王霖郁,李辉. 一种枝切法和质量图相结合的InSAR相位解缠算法. 应用科技. 2016(05): 49-53 . 百度学术
其他类型引用(25)