留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于条件随机场的中文地名识别方法

邬伦 刘磊 李浩然 高勇

邬伦, 刘磊, 李浩然, 高勇. 基于条件随机场的中文地名识别方法[J]. 武汉大学学报 ● 信息科学版, 2017, 42(2): 150-156. doi: 10.13203/j.whugis20141009
引用本文: 邬伦, 刘磊, 李浩然, 高勇. 基于条件随机场的中文地名识别方法[J]. 武汉大学学报 ● 信息科学版, 2017, 42(2): 150-156. doi: 10.13203/j.whugis20141009
WU Lun, LIU Lei, LI Haoran, GAO Yong. A Chinese Toponym Recognition Method Based on Conditional Random Field[J]. Geomatics and Information Science of Wuhan University, 2017, 42(2): 150-156. doi: 10.13203/j.whugis20141009
Citation: WU Lun, LIU Lei, LI Haoran, GAO Yong. A Chinese Toponym Recognition Method Based on Conditional Random Field[J]. Geomatics and Information Science of Wuhan University, 2017, 42(2): 150-156. doi: 10.13203/j.whugis20141009

基于条件随机场的中文地名识别方法

doi: 10.13203/j.whugis20141009
基金项目: 

国家自然科学基金 No. 41271385

测绘遥感信息工程国家重点实验室开放研究基金 No. (16) Key Project 02

详细信息
    作者简介:

    邬伦,教授,主要从事地理信息科学、地理信息系统软件等领域的研究。wulun@pku.edu.cn

    通讯作者: 高勇,博士,副教授。gaoyong@pku.edu.cn
  • 中图分类号: P208;TP391

A Chinese Toponym Recognition Method Based on Conditional Random Field

Funds: 

The National Natural Science Foundation of China No. 41271385

the Open Research Funds from State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing No. (16) Key Project 02

More Information
    Author Bio:

    WU Lun, PhD, professor, specializes in geographic information science and GIS software. E-mail: wulun@pku.edu.cn

    Corresponding author: GAO Yong, PhD, associate professor. E-mail:gaoyong@pku.edu.cn
  • 摘要: 在互联网迅速发展的现代化信息社会,大量地理信息都以非结构化的文本形式存在,而地名识别是挖掘这些地理信息的重要基础。目前已有的地名识别方法主要是从自然语言处理的角度来实现,并没有充分考虑到地名的构成和使用习惯等特征,造成识别率偏低或过拟合等问题。本文引入语言学相关知识,分析中文地名用字特征,在传统的地名专名+通名的结构上,更细致地划分地名的词素类型,总结归纳各词素类型的特征,将这些特征融入条件随机场的方法中,使地名识别问题转化为序列标注问题。并根据中文地名的特征,制定形式化规则,设计基于字的标注规范。在此基础上,设计中文地名特征模板,通过条件随机场模型训练和预测,识别自然语言文本中的中文地名。采用170万字的人民日报标注语料进行实验验证,结果表明本文方法对中文地名识别的召回率、准确率和F值分别达到92.69%、96.73%和94.67%,优于已有研究成果,能为地理信息科学领域的研究和应用提供更有效的地名服务。
  • 表  1  中文地名用字频次分级统计表[13]

    Table  1.   Word Frequencies in Chinese Toponyms

    用字次数 字个数 比例(字个数/总用字个数)/%
    1~9 2 078 56.4
    10~99 1 173 31.8
    100~999 385 10.4
    1 000~3 624 49 1.3
    下载: 导出CSV

    表  2  自然地理要素的类型词素及示例

    Table  2.   Morpheme Units of Physical Geography Features and Examples

    地域类型 类型词素 示例
    大陆 亚洲、北美洲
    高原 高原 青藏高原
    平原 平原、三角洲 华北平原
    丘陵 丘陵 山东丘陵
    盆地洼地 盆地 四川盆地
    沙漠戈壁 沙漠、戈壁 撒哈拉沙漠
    草原草地 草原 内蒙古草原
    半岛、群岛 半岛、群岛 山东半岛
    山岭 山、岭 大兴安岭
    沟谷 涧、谷、峪 龙门涧、五里谷
    山峰 峰、山 泰山、天都峰
    洞穴 云水洞、龙宫洞
    关隘 关、口 娘子关、古北口
    海洋 洋、海 太平洋、东海
    湖沼 湖、淀 鄱阳湖、白洋淀
    江河 江、河、水、溪 长江、黄河、汉水、富屯溪
    海峡 海峡 马六甲海峡
    海沟 海沟 马里纳亚海沟
    岛礁 岛、礁 海南岛、南华礁
    泉潭 潭、泉 黑龙潭、玉泉
    下载: 导出CSV

    表  3  人文地理要素的类型词素及示例

    Table  3.   Morpheme Units of Human Geography Features and Examples

    地域类型 类型词素 示例
    国家地区 中国、美国
    省级 省、自治区 山东省、西藏自治区
    地级 成都市、南京市
    县级 县、旗 左权县、库伦旗
    乡镇级 镇、乡、庄、铺、堡 良乡镇、四季青乡、庞各庄、十里铺、靳家堡
    街道 路、胡同、巷 学院路、张自忠路、丰盛胡同、东交民巷
    车站机场 站、场 北京西站、首都机场
    设施 大学、公园 北京大学、北海公园
    下载: 导出CSV

    表  4  模板示例

    Table  4.   An Example of the Templets

    符号 含义 内容
    %x[0,0] 当前条目第1列特征
    %x[-1,0] 前一条目的第1列特征
    %x[-1,0]|%x[0,0] 前一条目与当前条目的第1列的特征组合 北|京
    下载: 导出CSV

    表  5  中文地名识别实验结果

    Table  5.   Results of Experiments in the Chinese Toponym Recognition

    组别 召回率/% 准确率/% F值/%
    A 86.72 94.27 90.33
    B 88.72 94.35 91.45
    C 92.69 96.73 94.67
    下载: 导出CSV

    表  6  地名识别结果对比表

    Table  6.   Comparison of Results Between Our Method and Other Methods

    组别 召回率/% 准确率/% F值/%
    基于规则的方法 83.97 88.75 86.29
    隐马尔可夫模型 78.84 76.53 77.67
    条件随机场(字+词性) 93.55 91.15 92.33
    条件随机场(字+词性+通名) 94.67 92.35 93.50
    本文方法 92.69 96.73 94.67
    下载: 导出CSV
  • [1] Salton G, McGill M J. Introduction to Modern Information Retrieval[M].Columbus:McGraw-Hill Inc., 1986
    [2] Hill L L. Georeferencing:The Geographic Associations of Information[M]. Cambridge:MIT Press, 2009
    [3] Longley P A, Goodchild M F, Maguire D J. Geographic Information Systems:Principles, Techniques, Applications and Management[M]. 2nd ed. Chichester:John Wiley & Sons Ltd.,2008
    [4] 谭红叶, 郑家恒, 刘开瑛,等. 中国地名的自动识别方法研究[C]. 计算语言学文集.北京:清华大学出版社,1999, 174-179

    Tan Hongye, Zheng Jiaheng, Liu Kaiying, et al. Automatic Recognition Method of Chinese Toponym[C]. Collected Works of Computational Linguistics. Beijing:Tsinghua University Press, 1999,174-179
    [5] Lafferty J, McCallum A, Pereira F C, et al. Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C].Proceedings of the 18th International Conference on Machine Learning, San Francisco, USA, 2001
    [6] Sha F, Pereira F. Shallow Parsing with Conditional Random Fields[C]. Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology,Stroudsburg, USA, 2003
    [7] Sarawagi S, Cohen W W. Semi-Markov Conditional Random Fields for Information Extraction[J]. Advances in Neural Information Processing Systems, 2004, 17:1185-1192 http://cn.bing.com/academic/profile?id=d221ccbdf7738023e991bbe82372df4f&encoded=0&v=paper_preview&mkt=zh-cn
    [8] 廖文平. 基于CRF的中文地名识别研究[D]. 大连:大连理工大学,2010

    Liao Wenping. A Study on Chinese Location Names Recognition Based on CRF[D]. Dalian:Dalian University of Technology, 2010
    [9] 邱莎,阿圆, 王付艳, 等. 基于统计的中文地名自动识别研究[J]. 计算机技术与发展, 2011, 21(11):35-38 http://www.cnki.com.cn/Article/CJFDTOTAL-WJFZ201111011.htm

    Qiu Sha, A Yuan, Wang Fuyan, et al. Study on Automatic Recognition of Chinese Location Names Based on Statistical Method[J]. Computer Technology and Development, 2011, 21(11):35-38 http://www.cnki.com.cn/Article/CJFDTOTAL-WJFZ201111011.htm
    [10] 董晓晓. 中国地名的人文地理特征及其空间分布特征[D].临汾:山西师范大学,2012

    Dong Xiaoxiao. Human Geography and Spatial Distribution Feature Analysis of Chinese Toponym[D]. Linfen:Shanxi Normal University,2012
    [11] 邓慧蓉.中国地名和文化关系的研究[D]. 哈尔滨:黑龙江大学,2001

    Deng Huirong. Relationship Between Chinese Toponym and Chinese Culture[D]. Harbin:Heilongjiang University,2001
    [12] 孙宏. 中文地名的自动识别和标准化[D]. 天津:天津大学,2010

    Sun Hong. Automatic Recognition Methods and standardization of Chinese Toponym[D]. Tianjin:Tianjin University,2010
    [13] 程显毅, 朱倩, 王进. 中文信息抽取原理及应用[M]. 北京:科学出版社,2010

    Cheng Xianyi, Zhu Qian, Wang Jin. Principle and Application of Chinese Information Extraction[M]. Beijing:Science Press,2010
    [14] 杜萍, 刘勇. 中文地名识别与歧义消除-以中国县级以上行政区划地名为例[J]. 遥感技术与应用, 2012, 26(6):868-873

    Du Ping, Liu Yong. Recognition and Disambiguation Chinese Toponym from Web Texts-Take the Names of Chinese Administrative Division above County for Example[J].Remote Sensing Technology and Application, 2012, 26(6):868-873
    [15] 唐旭日, 陈小荷, 张雪英. 中文文本的地名解析方法研究[J]. 武汉大学学报·信息科学版, 2010, 35(8):930-935

    Tang Xuri,Chen Xiaohe,Zhang Xueying. Research on Toponym Resolution in Chinese Text[J].Geomatics and Information Science of Wuhan University, 2010, 35(8):930-935
    [16] 刘叔新. 汉语描写词汇学[M]. 北京:商务印书馆,2005

    Liu Shuxin. Chinese Lexicology[M]. Beijing:The Commercial Press, 2005
    [17] 宗成庆. 统计自然语言处理[M]. 第2版. 北京:清华大学出版社, 2013

    Zhong Chengqing. Statistics-based method on Natural Language Processing[M]. 2nd Ed. Beijing:Tsinghua University Press, 2013
    [18] 廖先桃. 中文命名实体识别方法研究[D]. 哈尔滨:哈尔滨工业大学,2006

    Liao Xiantao. A Study on Chinese Named Entity Recognition[D]. Harbin:Harbin Institute of Technology, 2006
  • [1] 张国永, 龚建华, 孙麇, 周洁萍, 李文航, 张利辉, 汪东川, 李文宁, 胡卫东, 樊鸿奎.  一种COVID-19病例个体时空轨迹交互式提取与质量评估方法 . 武汉大学学报 ● 信息科学版, 2021, 46(2): 177-183. doi: 10.13203/j.whugis20200290
    [2] 张春森, 胡艳, 于振, 崔卫红, 吴蓉蓉.  全连接条件随机场高分辨率遥感影像面状地物交互提取 . 武汉大学学报 ● 信息科学版, 2020, 45(10): 1594-1601. doi: 10.13203/j.whugis20190137
    [3] 胡定利, 李锐, 孟瑶, 吴华意.  新闻地名共现视角下的中国城市网络 . 武汉大学学报 ● 信息科学版, 2020, 45(2): 281-288. doi: 10.13203/j.whugis20180383
    [4] 舒时立, 李锐, 吴华意.  基于地名树的最佳空间尺度新闻事件地点提取方法 . 武汉大学学报 ● 信息科学版, 2019, 44(9): 1416-1422. doi: 10.13203/j.whugis20170358
    [5] 魏勇, 李鸿飞, 胡丹露, 李响, 马雷雷.  一种基于复合特征的中文地名识别方法 . 武汉大学学报 ● 信息科学版, 2018, 43(1): 17-23. doi: 10.13203/j.whugis20150538
    [6] 李霖, 周玉杰, 于忠海.  面状居民地名称注记自动配置研究 . 武汉大学学报 ● 信息科学版, 2016, 41(2): 214-220. doi: 10.13203/j.whugis20140385
    [7] 杜清运, 任福.  空间信息的自然语言表达模型 . 武汉大学学报 ● 信息科学版, 2014, 39(6): 682-688. doi: 10.13203/j.whugis20140118
    [8] 黄雪萍, 邓敏, 吴静, 马杭英.  线面目标自然语言空间关系集成表达与描述方法研究 . 武汉大学学报 ● 信息科学版, 2013, 38(2): 230-234.
    [9] 邓敏, 黄雪萍, 刘慧敏, 李光强.  利用自然语言空间关系的空间查询方法研究 . 武汉大学学报 ● 信息科学版, 2011, 36(9): 1089-1093.
    [10] 张春菊, 张雪英, 吉蕾静, 汪浩然.  地名通名与地理要素类型的关系映射 . 武汉大学学报 ● 信息科学版, 2011, 36(7): 857-861.
    [11] 唐旭日, 陈小荷, 张雪英.  中文文本的地名解析方法研究 . 武汉大学学报 ● 信息科学版, 2010, 35(8): 930-935.
    [12] 陆锋, 刘焕焕, 陈传彬.  一种中文自然语言表达交通信息的跨阶分词算法 . 武汉大学学报 ● 信息科学版, 2009, 34(8): 943-947.
    [13] 龚衍, 舒宁.  基于马尔柯夫随机场的多波段遥感影像纹理分割研究 . 武汉大学学报 ● 信息科学版, 2007, 32(3): 213-215.
    [14] 马洪超, 郭丽艳.  人工神经网络信息融合及其在机场识别中的应用研究 . 武汉大学学报 ● 信息科学版, 2005, 30(8): 682-684.
    [15] 乐小虬, 杨崇俊, 于文洋.  基于空间语义角色的自然语言空间概念提取 . 武汉大学学报 ● 信息科学版, 2005, 30(12): 1100-1103.
    [16] 杜世宏, 王桥, 李治江.  GIS中自然语言空间关系定义 . 武汉大学学报 ● 信息科学版, 2005, 30(6): 533-538.
    [17] 马林兵, 龚健雅.  空间信息自然语言查询接口的研究与应用 . 武汉大学学报 ● 信息科学版, 2003, 28(3): 301-305.
    [18] 郑肇葆, 郑宏.  用遗传算法确定马尔柯夫随机场的最佳参数 . 武汉大学学报 ● 信息科学版, 2000, 25(3): 221-225.
    [19] 黄桂兰, 郑肇葆.  一种基于马尔可夫随机场的影像纹理分类方法 . 武汉大学学报 ● 信息科学版, 1996, 21(3): 232-236,241.
    [20] 赫晓慧, 陈明扬, 李盼乐, 田智慧, 周广胜.  结合DCNN与短距条件随机场的遥感影像道路提取 . 武汉大学学报 ● 信息科学版, 0, 0(0): 0-0. doi: 10.13203/j.whugis20210464
  • 加载中
计量
  • 文章访问数:  2102
  • HTML全文浏览量:  86
  • PDF下载量:  1024
  • 被引次数: 0
出版历程
  • 收稿日期:  2015-04-17
  • 刊出日期:  2017-02-05

基于条件随机场的中文地名识别方法

doi: 10.13203/j.whugis20141009
    基金项目:

    国家自然科学基金 No. 41271385

    测绘遥感信息工程国家重点实验室开放研究基金 No. (16) Key Project 02

    作者简介:

    邬伦,教授,主要从事地理信息科学、地理信息系统软件等领域的研究。wulun@pku.edu.cn

    通讯作者: 高勇,博士,副教授。gaoyong@pku.edu.cn
  • 中图分类号: P208;TP391

摘要: 在互联网迅速发展的现代化信息社会,大量地理信息都以非结构化的文本形式存在,而地名识别是挖掘这些地理信息的重要基础。目前已有的地名识别方法主要是从自然语言处理的角度来实现,并没有充分考虑到地名的构成和使用习惯等特征,造成识别率偏低或过拟合等问题。本文引入语言学相关知识,分析中文地名用字特征,在传统的地名专名+通名的结构上,更细致地划分地名的词素类型,总结归纳各词素类型的特征,将这些特征融入条件随机场的方法中,使地名识别问题转化为序列标注问题。并根据中文地名的特征,制定形式化规则,设计基于字的标注规范。在此基础上,设计中文地名特征模板,通过条件随机场模型训练和预测,识别自然语言文本中的中文地名。采用170万字的人民日报标注语料进行实验验证,结果表明本文方法对中文地名识别的召回率、准确率和F值分别达到92.69%、96.73%和94.67%,优于已有研究成果,能为地理信息科学领域的研究和应用提供更有效的地名服务。

English Abstract

邬伦, 刘磊, 李浩然, 高勇. 基于条件随机场的中文地名识别方法[J]. 武汉大学学报 ● 信息科学版, 2017, 42(2): 150-156. doi: 10.13203/j.whugis20141009
引用本文: 邬伦, 刘磊, 李浩然, 高勇. 基于条件随机场的中文地名识别方法[J]. 武汉大学学报 ● 信息科学版, 2017, 42(2): 150-156. doi: 10.13203/j.whugis20141009
WU Lun, LIU Lei, LI Haoran, GAO Yong. A Chinese Toponym Recognition Method Based on Conditional Random Field[J]. Geomatics and Information Science of Wuhan University, 2017, 42(2): 150-156. doi: 10.13203/j.whugis20141009
Citation: WU Lun, LIU Lei, LI Haoran, GAO Yong. A Chinese Toponym Recognition Method Based on Conditional Random Field[J]. Geomatics and Information Science of Wuhan University, 2017, 42(2): 150-156. doi: 10.13203/j.whugis20141009
  • 随着互联网技术的快速发展,网络成为信息传播交流的重要平台。在网络空间中每天都有大量的数据或信息产生,其中大部分都以自然语言文本的形式存在,如何从中挖掘出有用的信息成为当前的研究热点。这些文本中蕴含着大量的空间信息,据抽样统计,全球约70%的网页中含有位置信息[1]。但是,与传统的地理信息或数据相比,文本中的地理信息是非结构化的,只有在形式化处理后,才能进行分析和挖掘[2]。文本中的空间信息形式化包括地名识别、空间关系提取、事件提取等方面。地名识别作为空间信息形式化最基础、最底层的工作,其准确性将直接影响到后续工作的有效性。

    中文地名的识别方法基本上可以概括为基于词典的方法、基于规则的方法、基于统计的方法[3],以及这三种方法的组合。基于词典的方法是以构建地名词典或地名库为基础,采用简单的文本匹配算法进行地名识别。由于地名有限,该方法可以较好地识别地名,特别是对于专有地名具有良好的效果,但是存在地名库或地名更新维护困难、简单匹配不考虑上下文语境出现误识别等缺点。基于规则的方法首先建立地名的构词规则及句法规则,然后采用匹配算法实现地名的自动识别。谭红叶等[4]通过从大规模地名词典和真实文本语料库得到的统计信息以及针对地名特点总结的规则来自动识别地名。基于统计的方法的优点是客观性和移植性较好,方法简单,标注人员不需要有专业背景知识,移植到新的领域改动少。但是该方法需要大规模的标注语料供其训练,对于语料库的全面性和数量规模依赖性较强。

    中文地名识别是一项复杂的信息抽取任务,涉及多个学科领域。尽管目前自然语言处理和地理信息系统领域在此已经取得了一定成果,但现有的地名识别方法或者无法融入地名特征,或者没有深入分析地名用字特征并且未能融入模型,导致召回率和准确率不佳。采用地名词典匹配的系统无法使用上下文特征,无法区分某些非地名情况,例如人名“潘长江”中的“长江”,导致准确率偏低。采用规则的系统则难以考虑到所有情况,召回率不高。其它如隐马尔科夫模型等统计方法,难以有效使用地名用字特征。

    条件随机场(conditional random fields,CRF)主要用于解决序列标注问题[5]。它在分词、词组提取、词性标注、命名实体识别等自然语言处理领域都具有较多应用[6, 7]。与其它序列标注模型不同,在条件随机场中,当前的状态不只由这一时刻或局部的观测条件给出,而是与整个序列的状态相关,这更符合实际情况,因此标注结果也相应地有所提升。

    条件随机场模型可以有效地使用地名特征和上下文特征,前人也有使用条件随机场进行地名识别的研究[8, 9],但并没有结合地名学知识,没有对地名用字特征进行详尽分析,单纯的基于前缀词和后缀词构建规则对地名进行识别,因此召回率和准确率还有提升的空间。本文引入中文语言学知识,分析中文地名的用字特征,并据此设计中文地名标注规范。在此基础上,使用条件随机场方法,将地名识别视为一个命名实体识别问题,通过人工标注语料,选取特征模板,训练条件随机场模型,达到识别地名的目的。

    • 中文地名结构复杂,历史悠远,其取名受多种因素影响。从社会学角度来看,地名具有区域性、民族性、稳定性和时代性[10],取名来源一般包括相对位置、自然地理特征、交通功用、境内山水、纪念某人某事或某物等形式[11]。经过文献综合及对《中华人民共和国地名录》中收录的地名进行归纳总结,将中文地名的特征概括为以下几个方面。

      (1) 中文地名具有一定的稳定性,但是数量庞大,未登录地名多,并且不断发生变化。以行政区划为例,2002年全国行政区划统计中,县级区划共2 860个,乡级区划共44 822个。而在2009年变更为县级区划4 636个,乡级区划32 544个[12]。特别是随着社会的发展,未登录在《中华人民共和国地名录》中的地名越来越多,外国不常用地名也经常出现,例如“中关村”、“清迈”等。

      (2) 中文地名用字一方面比较自由、分散,另一方面又有相对集中的覆盖能力。以《中华人民共和国地名录》中收录的条目为例,中国地名用字共3 685个,其统计特征如表 1所示,比较分散。一些字或词只在地名中出现,如“澜沧江”中的“澜沧”,而很大部分是普通用字,作为非地名成分出现的次数也很多,表现出很强的构词能力,例如“上海”两个字,“上”和“海”都常用于构成其他词。

      表 1  中文地名用字频次分级统计表[13]

      Table 1.  Word Frequencies in Chinese Toponyms

      用字次数 字个数 比例(字个数/总用字个数)/%
      1~9 2 078 56.4
      10~99 1 173 31.8
      100~999 385 10.4
      1 000~3 624 49 1.3

      (3) 中文地名长度不定。由于中文文本句子内部没有空格,词与词之间需要确定界限,这给地名识别带来较大难度。在文本中,经常有“京”、“川”这类一个字的简称,也会出现“宁夏回族自治区”这类长地名,地名边界难以确定。

      (4) 中文地名结尾常有特征词出现,如“省”、“市”、“县”、“镇”、“江”、“河”等。这些特征词有利于地名的识别。但是地名特征词在地名中出现的情况很复杂。有些地名特征词有可能是地名用字本身,例如“镇江市”中的“镇”。某些字也可能用于普通词语中,造成普通词语被错误召回为地名。

      (5) 地名常与一些介词、方位词等有地理指示意义的词一起出现,如“在北京”,“去阿富汗”等。但是这些指示词通常也是文本中的常用词汇,也常与非地名词搭配,如“在工作中”等,所以也对地名识别有干扰作用,需要结合上下文才能确定指示词的作用。

      (6) 地名常与其他词组合形成具有其他意义的词组,大多数是机构和普通的修饰名词,如“北京社科院”、“青岛啤酒”等,这些词语实际上已不是一个单独的地名实体。

      本文主要研究通用地名的提取,并且以最小粒度提取,如“北京市海淀区”这类层级复合地名将得到“北京市”和“海淀区”两个地名,最终的组合可以在提取后通过一定的规则得到;而如“北京社科院”这类机构名则可以采用机构名识别的方法研究,故本文不予讨论。

    • 大多数中文地名一般只有1~5个字,基于字的上下文窗口基本能够满足要求。同时有些地名用字在真实文本中构词能力过强,常会有分词的错误,基于词的模型的召回率会偏低[14]。因此采用基于字的模型进行标注,标注方法为将地名首字标注为“B-LOC”,地名非首字标注为“I-LOC”,非地名字标注为“O”。

      经过这种标签标注后,一个单独的B-LOC标签表示单字地名,一般是地名简称。B-LOC + I-LOC + [I-LOC…] 标签表示双字或多字地名。例如,句子“上海市人大代表赴京参会”,按照上述标注体系进行标注后,得到的结果应为:{上/B-LOC 海/I-LOC市/I-LOC人/O 大/O代/O表/O赴/O京/B-LOC 参/O 会/O}。

      基于字的词性是描述该字所属词的词性及其在词语中的位置信息。标注方法参考了基于字的标注体系,以B标识词的开始,I标识词的其余部分。这两个标签与词性结合,就形成了基于字的词性的标注规则。最终的标注形式如“B-词性”,“I-词性”这种形式,例如“B-n”、“B-v”、“B-p”等。

    • 条件随机场可利用的特征很多,对于中文地名,本文引入语言学知识,提取其中的语法特征和地名用字特征两大类特征。

      (1) 语法特征

      本文采用的语法特征包括单字本身、单字所处的词语、基于字的词性三种。单字本身在一定程度上反映了地名用字特征,也是整个特征模板的基础,因此被选为基础的地名识别特征。与之前的纯粹基于单字的命名实体识别系统不同,本文认为单字所处的词语及上下文可以反映出单字所在词常用的搭配习惯,特别在地名识别上有显著作用。因此本文不舍弃词语特征,而是在基于字的模型上,采用分词工具对句子分词,将字所在的词作为地名识别的一个参考特征。

      (2) 地名用字特征

      唐旭日等[15]从语法结构学角度引入地名成分的概念来描述中文地名内部结构。语法结构学上,地名是由一个或多个地名成分构成的语言结构形式。地名成分中的词素是语法学上通用的词素概念,指可由一个或多个语素组成的词的构成单位[16]。所有词素中,类型词素的特征最为明显,并且其集合比较封闭,可枚举得到大部分类型。区别性词素、方位词素和部位词素相对较多,但常用的有限,可以枚举。描写性词素则复杂多变,用词分散,没有特定的规律。

      类型词素反映地名所指代的个体地域的属性,例如“太行山”、“华北平原”、“四川盆地”中的“山”、“平原”、“盆地”指这几个地名各自覆盖地域的地貌形态;“长江”、“渤海”、“趵突泉”中的“江”、“海”、“泉”则指这几个地名各自覆盖地域的水体形态。本文根据地名所指的个体地域的性质,将类型词素分为自然地理和人文地理要素类型词素。两类要素的特征词和示例分别见表 2表 3。本文收录这些常见的类型词素作为地名类型特征词,共53个。

      表 2  自然地理要素的类型词素及示例

      Table 2.  Morpheme Units of Physical Geography Features and Examples

      地域类型 类型词素 示例
      大陆 亚洲、北美洲
      高原 高原 青藏高原
      平原 平原、三角洲 华北平原
      丘陵 丘陵 山东丘陵
      盆地洼地 盆地 四川盆地
      沙漠戈壁 沙漠、戈壁 撒哈拉沙漠
      草原草地 草原 内蒙古草原
      半岛、群岛 半岛、群岛 山东半岛
      山岭 山、岭 大兴安岭
      沟谷 涧、谷、峪 龙门涧、五里谷
      山峰 峰、山 泰山、天都峰
      洞穴 云水洞、龙宫洞
      关隘 关、口 娘子关、古北口
      海洋 洋、海 太平洋、东海
      湖沼 湖、淀 鄱阳湖、白洋淀
      江河 江、河、水、溪 长江、黄河、汉水、富屯溪
      海峡 海峡 马六甲海峡
      海沟 海沟 马里纳亚海沟
      岛礁 岛、礁 海南岛、南华礁
      泉潭 潭、泉 黑龙潭、玉泉

      表 3  人文地理要素的类型词素及示例

      Table 3.  Morpheme Units of Human Geography Features and Examples

      地域类型 类型词素 示例
      国家地区 中国、美国
      省级 省、自治区 山东省、西藏自治区
      地级 成都市、南京市
      县级 县、旗 左权县、库伦旗
      乡镇级 镇、乡、庄、铺、堡 良乡镇、四季青乡、庞各庄、十里铺、靳家堡
      街道 路、胡同、巷 学院路、张自忠路、丰盛胡同、东交民巷
      车站机场 站、场 北京西站、首都机场
      设施 大学、公园 北京大学、北海公园

      区别性词素是地名专名中的一种要素,主要在地名的其他组成成分一样时,起决定性区别作用。例如“小西山或者大西山”中的“小”和“大”。理论上,许多有区别性意义的成对的词都可以成为区别性词素。但是,对《中华人民共和国地名录》中的地名的统计结果表明,实际使用的区别性词素并不多,只有为数不多的几个较为常用,包括“新、老、旧、古、大、小、白、青、阴、阳”等。这些词基本都在地名起始位置,起到确定地名前边界的作用。最终本文收录这10个字作为地名前部特征词。

      方位词素和部位词素都是描述地名空间方向的词素,具有一定的相似之处,都表达地名命名起源与方位的关系。方位词素一般是指“东”、“南”、“西”、“北”等词,偏向于描述地名外部,例如“北戴河”;而部位词素一般表达地名内部的空间方位,常是“口”、“头”、“尾”、“底”、“脚”、“滨”、“嘴”等词,一般位于描写词素之后,例如“五道口”、“陆家嘴”。根据对地名库的统计,含有方位词素的地名共2 335个,占总数的13%;含有部位词素的地名共336个,占2%。

      描写性词素是指地名成分中除上述几种词素之外的,对地名进行描写的结构,如“安定门”的“安定”。相对其他词素而言,描写性词素用字比较开放、分散,没有固定的集合,也没有明显的特征可循,因此本文不对该类词素进行枚举收集。

      根据上述对地名成分的分析,本文认为,地名最重要的特征是类型词素、方位词素和部位词素。因此取这三类词素常用词的集合作为地名外部特征,制作地名特征词集。生成特征时,如果当前字或词是某一特征词集的条目,则对应的特征值为Y,否则为N。

      综上,本文的中文地名识别最终选取7个特征。F1:字;F2:词;F3:词性;F4:是否为类型词素;F5:是否为区别性词素;F6:是否为方位词素;F7:是否为部位词素。

    • 在提取中文地名的特征后,需要设计合理的特征模板使用这些特征,以生成最终的训练语料。

      定义条件随机场特征模板所要考虑的上下文特征,通过特征种类及其相对位置确定。模板分为一元模板和多元模板。一元模板只考虑一元特征,多元模板考虑多种特征或特征上下文之间的组合。模板举例如下:

      POS[0]:一元模板,表示当前字的词性。

      C[0]|POS[1]:多元模板,将当前字本身与当前字的后一个字的词性综合考虑。

      形式化地,特征模板将统一采用%x[r,c]的格式及其组合。其中%x表示当前条目;r指代与当前条目所对应的上下文其他条目的位置,取值为0时表示当前条目,取正数值则代表当前条目之后的条目,取负数值则代表当前条目之前的条目;c指代对应的特征项,取值为0表示第1列的特征,取值为1表示第2列特征,依次类推。以“北京市位于华北平原”语料为例,对于其中“京”的模板如下。

      表 4  模板示例

      Table 4.  An Example of the Templets

      符号 含义 内容
      %x[0,0] 当前条目第1列特征
      %x[-1,0] 前一条目的第1列特征
      %x[-1,0]|%x[0,0] 前一条目与当前条目的第1列的特征组合 北|京

      对于特征模板的选取,除特征本身外,最重要的是上下文窗口的选取。字与字的相互作用与它们之间的距离有较大关系,距离远的字之间的联系强度一般弱于距离近的。一般情况下,中文命名实体识别上下文窗口取2~3为宜[17]。因此本文采用[-2,+2]的有效窗口进行计算。

      因此,本文选取的特征模板共分为三种:当前字本身、其前两个字、后两个字;当前字相邻的字与当前字的组合;包含当前字的三元组合。

      在得到上述特征和特征模板后,利用条件随机场进行模型训练和预测。条件随机场的训练分两步,先根据特征模板生成特征函数,然后学习训练得到特征函数的权重。

    • 特征函数根据之前设计的标注体系、特征以及特征模板生成,不同的标注体系、特征和特征模板产生的特征函数不同。

      给定观察序列x的条件下,相应的标记序列y的概率,即条件随机场模型为:

      $$\begin{align} & p\left( y|x \right)=\frac{1}{Z\left( x \right)}\exp \left( \sum\limits_{i}{\sum\limits_{k}{{{\lambda }_{k}}{{t}_{k}}\left( {{y}_{i-1}},{{y}_{i}},x,i \right)}} \right. \\ & +\left. \sum\limits_{i}{\sum\limits_{k}{{{\mu }_{k}}{{s}_{k}}\left( {{y}_{i}},x,i \right)}} \right) \\ \end{align}$$

      式中,Z(x)为归一化因子;tk(yi-1,yi,x,i)是整个观察序列和对应标记在i-1和i时刻的特征,表达两个状态之间的转移情况,称为转移特征函数;sk(y,x,i)是在i时刻整个观察序列和标记的特征,称为状态特征函数;参数λkμk从训练语料中训练求解得到,大的非负值表示该特征权重大,大的负值表示该特征在语料中不太可能发生。

      举例说明条件随机场在地名识别中特征函数的生成过程。假设观察序列“北京市位于华北平原”,地名标签采用BIO2体系。在本文的地名识别任务中,仅识别地名这一个实体,标签序列简化为B、I、O三种,则该句子的人工标注序列应为“B I I O O B I II”。对应的状态特征函数有3个,即状态分别为B、I、O的二值函数;转移特征函数则有9种可能的值,即状态分别为O-O、O-B、O-I、B-O、B-B、B-I、I-O、I-B、I-I的值。若观察序列和状态序列满足条件,特征函数取值为1,否则取值为0。最终的训练语料将以句子为单位,对句子中的每一个字都根据特征模板生成对应的特征函数,然后训练求解其权重。

      为了统一表示,最终条件随机场模型为:

      $$p\left( y|x \right)=\frac{1}{Z\left( x \right)}\text{exp}\left( \sum\limits_{i}{{{\lambda }_{k}}{{F}_{k}}\left( y,x \right)} \right)$$

      其中,${{F}_{k}}\left( y,x \right)=\sum\limits_{i}{{{f}_{k}}({{y}_{i-1}},{{y}_{i}},x,i)}$,fktksk的统一表示。

      条件随机场在训练过程中会生成多个特征函数,每个特征函数对地名识别的作用大小不一样,有不同的权重。而条件概率p(y|x)可以根据语料统计而来,模型训练就转变为求解各个特征函数的权重。权重利用参数估计算法(改进的迭代尺度法、拟牛顿法等)求解,通过计算特征梯度向量和目标函数,循环迭代求解权重向量,直到权重满足算法停止条件为止。

    • 根据条件随机场的理论,在模型存在时(即特征函数以及对应的权重均为已知),地名识别任务转变为对新的文本序列生成特征函数以及求解下式的最优解:

      $$\begin{align} & {{y}^{*}}=\text{arg }\underset{y}{\mathop{\text{max}}}\,p\left( y|x \right)= \\ & \text{arg }\underset{y}{\mathop{\text{max}}}\,\frac{1}{Z\left( x \right)}\text{exp}\sum\limits_{k}{{{\lambda }_{k}}{{F}_{k}}\left( y,x \right)}= \\ & \text{arg }\underset{y}{\mathop{\text{max}}}\,\sum\limits_{k}{{{\lambda }_{k}}{{F}_{k}}\left( y,x \right)}\text{ } \\ \end{align}$$

      生成特征函数与训练模型时相同,也是根据选取的特征和特征模板产生,不再赘述。而求解标注序列最优解,可以看作是求解最优路径问题,使用动态规划方法求解。

      识别的结果是文本的标签序列,与训练集的标签序列类似,以BIO2体系标记,需要将B部分以及后续的I部分结合起来才能形成一个完整的地名。例如句子“总理昨天离京,飞抵上海”,经识别后的序列为“O O O O O B O O O B I”,那么该句有两个地名:一个是单独的B,对应位置的地名为“京”;另一个是B及其后续的I的组合,对应位置的地名为“上海”。

      条件随机场用于地名识别的时间代价包括训练和识别两个部分,其中识别的时间复杂度为O(n),因此代价主要集中在训练部分,其复杂度为O(TM2n),其中T为特征数目,M为特征模板数目,n为样本数量。但训练过程是预先完成的,且仅需训练一次,因此并不影响地名识别的效率。

    • 首先将原始语料按照标注规范进行人工标注,得到标注语料,通过预处理,得到能够被条件随机场模型识别的文件,使用这一部分语料训练模型,得到训练好的条件随机场模型。然后将剩下的语料进行人工标注,通过引入外部知识库的方式,得到测试集,将测试集输入训练好的模型进行模型效果验证。将本文方法的运行结果与引入外部知识库的结果进行对比,检验模型的效果。

      第一份实验数据为1998年1月份的人民日报标注语料。原始语料为1998年全年的《人民日报》,共约2 700万字,制作过程中主要参阅规范《现代汉语语料库加工—词语切分与词性标注规范》,是我国第一个大型的现代汉语标注语料库。其中公开的1月份语料经过多次检验,已逐渐成为中文信息处理的一个标准语料库,常在国际大赛中用于地名、人名等命名实体识别的标准评测库。本文将其中的80%作为训练语料,约有140多万字,含地名22 100个;其余20%语料作为测试语料,约30多万字,含地名4 993个。语料中词与词之间用空格区分,形式如下:

      邓亚萍/n 昨日/n 在/p [北京/n]ns 受/v [中国/n]ns 人民/n热烈/adv欢迎/n

      为检验方法的通用性,第二份实验数据是从2014年新浪军事新闻中选取的150份报道,约3万字,含地名1 300个,采用与第一份语料相同的标注方法,取其中的80%作为训练语料,其余20%作为测试语料。

    • 第一份语料进行A、B、C共3组实验,A只取单字特征,B加入词语和词性特征,CB组的基础上加入地名的外部知识库特征。结果如表 5所示。

      表 5  中文地名识别实验结果

      Table 5.  Results of Experiments in the Chinese Toponym Recognition

      组别 召回率/% 准确率/% F值/%
      A 86.72 94.27 90.33
      B 88.72 94.35 91.45
      C 92.69 96.73 94.67

      在地名识别的三组实验中,本文方法都具有较高的准确率,特别是考虑全部地名特征时,召回率、准确率和F(F=准确率×召回率×2/(准确率+召回率))值分别达到92.69%、96.73%和94.67%。同时该方法具有良好的序列标注性质,只需不多的训练语料即可取得很好的应用结果。对于训练语料中已经出现过的地名,该方法可以较好地识别出来。而对于训练语料中未曾出现的地名,该方法根据各种特征的组合,也可以取得不错的识别效果。例如,“同时进攻了加沙地带谢贾耶区、南部拉法镇”中的外国地名均被正确识别。

      经过对结果的分析,发现地名被错误召回主要有以下几种情况。第一种是地名词边界与前后词形成了词语,导致边界错误,例如“撒哈拉以南非洲”被错误识别为“南非洲”。第二种是某些普通名词与地名特征词重合,导致的类型识别错误,例如“履行公约缔约国的义务”中的“缔约国”含有特征字“国”,但不是地名。第三种是其他类型被误识别为地名。例如“乔尔贝亚政府去年进行改组”中的人名“乔尔贝亚”误被识别为地名,这是由于训练语料中常出现“地名+政府”的组合,使得该具体语境下的情况无法区分。

      可以明显看出,随着特征数的增多,召回率也随之增加。但是,特征数的增加也会造成训练时的噪声偏多,并且训练模型的空间代价和时间代价迅速增大。这需要在实验中,根据实际情况选取合适的特征数。

      通过在同一份语料上与相关文献的其他方法相比,本文的结果有明显的提高。廖先桃[18]总结对比了当前的命名实体识别方法,在对上述语料的中文地名识别实验中,基于规则方法的F值为86.29%;基于隐马尔可夫模型效果不佳,F值仅为77.67%;基于条件随机场模型的F值为92.33%,只考虑了语法特征,无地名特征分析,与本文A、B组实验结果接近。廖文平[8]使用条件随机场识别地名时考虑了地名通名特征,结果的F值为93.50%。本文的C组对地名专名做了分析,增加了专名特征,准确率有较大提升,识别效果更好。对比结果如表 6所示。

      表 6  地名识别结果对比表

      Table 6.  Comparison of Results Between Our Method and Other Methods

      组别 召回率/% 准确率/% F值/%
      基于规则的方法 83.97 88.75 86.29
      隐马尔可夫模型 78.84 76.53 77.67
      条件随机场(字+词性) 93.55 91.15 92.33
      条件随机场(字+词性+通名) 94.67 92.35 93.50
      本文方法 92.69 96.73 94.67

      采用本文提出的方法对第二份语料进行处理,最终地名识别结果的召回率、准确率和F值分别为94.85%、94.26%和94.55%,效果良好,证明了该方法的有效性和通用性。

    • 本文针对现有地名识别方法中存在的问题,使用条件随机场模型,将中文地名识别视为序列标注问题,综合考虑了地名特征和上下文特征在地名识别中的影响。从自然语言处理角度出发,根据中文地名的特点,深入分析了地名用字特征,引入语言学相关知识,在传统的地名专名+通名的结构上,更细致地划分词素类型,总结归纳各词素类型的特征,形成特征集合和特征模板,融入条件随机场模型识别中文地名。通过实验验证,本文方法对结尾具有特征词的地名识别效果良好,也能够将文本中出现的结尾不具有特征词的地名与未登录地名正确的识别出来。与其他同类方法相比,该方法更多地考虑了中文地名本身的特征并加入模型计算,取得了良好的效果。

      本文提出的方法仍有继续深入研究和改进之处,特别是地名识别时对于上下文的使用。目前本文只使用了邻近窗口,而在实际应用中,文档中的知识也将有助于地名的识别。

参考文献 (18)

目录

    /

    返回文章
    返回