留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

一种WMS领域主题文本提取及元数据扩展方法

张敏 桂志鹏 成晓强 曹军 吴华意

张敏, 桂志鹏, 成晓强, 曹军, 吴华意. 一种WMS领域主题文本提取及元数据扩展方法[J]. 武汉大学学报 ● 信息科学版, 2019, 44(11): 1730-1738. doi: 10.13203/j.whugis20180083
引用本文: 张敏, 桂志鹏, 成晓强, 曹军, 吴华意. 一种WMS领域主题文本提取及元数据扩展方法[J]. 武汉大学学报 ● 信息科学版, 2019, 44(11): 1730-1738. doi: 10.13203/j.whugis20180083
ZHANG Min, GUI Zhipeng, CHENG Xiaoqiang, CAO Jun, WU Huayi. A Text-Based WMS Domain Themes Extraction and Metadata Extension Method[J]. Geomatics and Information Science of Wuhan University, 2019, 44(11): 1730-1738. doi: 10.13203/j.whugis20180083
Citation: ZHANG Min, GUI Zhipeng, CHENG Xiaoqiang, CAO Jun, WU Huayi. A Text-Based WMS Domain Themes Extraction and Metadata Extension Method[J]. Geomatics and Information Science of Wuhan University, 2019, 44(11): 1730-1738. doi: 10.13203/j.whugis20180083

一种WMS领域主题文本提取及元数据扩展方法

doi: 10.13203/j.whugis20180083
基金项目: 

国家自然科学基金 41501434

国家自然科学基金 41501443

详细信息

A Text-Based WMS Domain Themes Extraction and Metadata Extension Method

Funds: 

The National Natural Science Foundation of China 41501434

The National Natural Science Foundation of China 41501443

More Information
  • 摘要: 由于网络地图服务(Web map service,WMS)元数据缺乏显式的领域主题描述机制,用户很难准确、全面地发现目标领域的地图数据资源。提出了一种面向地理信息资源检索的WMS领域主题文本提取及元数据扩展方法。首先,设计了一种非监督文本分类算法,利用地球与环境术语集语义网(semantic Web of Earth and environmental terminology,SWEET)和大型英语词汇语义网WordNet,综合计算WMS元数据能力文档中地学术语、通识型词汇与领域主题的语义相关度,为WMS及其图层提取多标签主题。然后,基于ISO19115 2003地理信息元数据标准,为WMS元数据组织模型扩展领域主题。实验结果表明,所提出的WMS元数据主题分类算法取得了较高的查准率和查全率,且相较于朴素贝叶斯、线性支持向量机(support vector machine,SVM)和逻辑回归等方法,整体上有较大的优势。该方法有望应用于当前的地理信息门户和目录服务,辅助用户快速、准确地定位目标领域的地图服务资源。
  • 图  1  特征词与主题的最短路径示例

    Figure  1.  Examples of Shortest Path Between Feature Words and Domain Theme "Water"

    图  2  基于ISO19115 2003地理信息元数据标准的WMS元数据扩展模型

    Figure  2.  Extended WMS Metadata Model Based on ISO19115 2003 Geographic Information Metadata Standard

    图  3  3个示例WMS分类结果

    Figure  3.  Classification Experiment Results of Three Selected WMS Examples

    图  4  示例WMS各图层及WMS主题隶属度计算

    Figure  4.  Layers and Themes Relevancies of Exemplary WMS

    图  5  6种文本分类算法查准率和查全率对比

    Figure  5.  Comparison of Accuracy Ratio and Recall Ratio of Six Text Classification Algorithms

    图  6  不同主题下6种文本分类算法的F1值对比

    Figure  6.  F1 Value of Different Themes for the Six Text Classification Algorithms

    表  1  针对不同元数据文本篇幅、文本语言和主题个数的WMS主题分类结果对比

    Table  1.   Classification of WMSs with Different Metadata Document Lengths, Languages and Numbers of Themes

    特征文本 特征维度 样本数 查准率 查全率 平均查准率 整体查全率
    文本篇幅 较短(< 100字) 200 0.855 0.748 0.743 0.653
    适中(100~200字) 200 0.704 0.609
    较长(> 200字) 200 0.671 0.601
    文本语言 英语 250 0.857 0.603 0.721 0.573
    其他语言 250 0.584 0.542
    主题个数 < 2个 180 0.920 0.801 0.762 0.701
    2~3个 180 0.714 0.693
    > 3个 180 0.651 0.608
    下载: 导出CSV
  • [1] 1] Li Zhenlong, Yang Chaowei, Wu Huayi, et al. An Optimized Framework for Seamlessly Integrating OGC Web Services to Support Geospatial Sciences[J]. International Journal of Geographical Information Science, 2011, 25(4):595-613 doi:  10.1080/13658816.2010.484811
    [2] 刘宵婧, 桂志鹏, 曹军, 等. GWR与STARMA结合的WMS响应时间时空预测模型[J].武汉大学学报∙信息科学版, 2018, 43(6):951-958 http://ch.whu.edu.cn/CN/abstract/abstract6137.shtml

    Liu Xiaojing, Gui Zhipeng, Cao Jun, et al. Spatiotemporal-Aware Hybrid Prediction Model for Response Time of Web Map Services by Integrating GWR and STARMA[J]. Geomatics and Information Science of Wuhan University, 2018, 43(6): 951-958 http://ch.whu.edu.cn/CN/abstract/abstract6137.shtml
    [3] 陈能成, 陈泽强, 王伟.一种基于能力匹配和本体推理的高精度Web地图服务发现方法[J].武汉大学学报∙信息科学版, 2009, 34(12): 1 471-1 475 http://ch.whu.edu.cn/CN/abstract/abstract1459.shtml

    Chen Nengcheng, Chen Zeqiang, Wang Wei. A High Precision OGC Web Map Service Discovery Based on Capabilities Matching and Ontology Reasoning[J]. Geomatics and Information Science of Wuhan University, 2009, 34(12):1 471-1 475 http://ch.whu.edu.cn/CN/abstract/abstract1459.shtml
    [4] Gui Z, Cao J, Liu X, et al. Global-Scale Resource Survey and Performance Monitoring of Public OGC Web Map Services[J]. ISPRS International Journal of Geo-Information, 2016, 5(6):88 doi:  10.3390/ijgi5060088
    [5] American Government Offices. Data. gov[EB/OL]. http://catalog.data.gov/dataset, 2017
    [6] NASA.NASA Global Change Master Directory[EB/OL]. https://gcmd.gsfc.nasa.gov/, 2017
    [7] Liu Kai, Yang Chaowei, Li Wenwen, et al. The GEOSS Clearinghouse High Performance Search Engine[C]. International Conference on Geoinformatics, Shanghai, China, 2011
    [8] Nativi S, Khalsa S, Domenico B, et al. EarthCube White Paper: The Brokering Approach for Earth Science Cyberinfrastructure[EB/OL]. https://www.earthcube.org/sites/default/files/doc-repository/Dominico%20-%20The%20Brokering%20Approach%20for%20Earth%20Science%20Cyberinfrastructure.pdf, 2017
    [9] Wu Huayi, Li Zhenlong, Zhang Hanwu, et al. Monitoring and Evaluating the Quality of Web Map Service Resources for Optimizing Map Composition over the Internet to Support Decision Making[J]. Computers and Geosciences, 2011, 37(4):485-494 doi:  10.1016/j.cageo.2010.05.026
    [10] Zhang Hanwu, Wu Huayi, Hu Yueming, et al. From Quality of Geospatial Data to Quality of Geospatial Information Services[J]. Geomatics and Information Science of Wuhan University, 2010, 35(9):1 104-1 107 http://cn.bing.com/academic/profile?id=3d7ec9f1b904b635e3d5f63a7f1bfcc3&encoded=0&v=paper_preview&mkt=zh-cn
    [11] Gui Zhipeng, Yang Chaowei, Xia Jizhe, et al. A Performance, Semantic and Service Quality-Enhanced Distributed Search Engine for Improving Geospatial Resource Discovery[J]. International Journal of Geographical Information Science, 2013, 27(6):1 109-1 132 doi:  10.1080/13658816.2012.739692
    [12] Hu Kai, Gui Zhipeng, Cheng Xiaoqiang, et al. Content-Based Discovery for Web Map Service using Support Vector Machine and User Relevance Feedback[J]. PLOS One, 2016, 11(11): e0166098 doi:  10.1371/journal.pone.0166098
    [13] Wei Xin, Bruce C W. LDA-based Document Models for ad-hoc Retrieval[C]. International ACM SIGIR Conference on Research and Development in Information Retrieval, Seattle, Washington, USA, 2006
    [14] 葛文, 成毅, 孙亚飞.地理信息服务朴素贝叶斯分类及类别匹配研究[J].测绘工程, 2013, 22(2):5-9 doi:  10.3969/j.issn.1006-7949.2013.02.002

    Ge Wen, Chen Yi, Sun Yafei. Research of Geographical Information Service Native Bayes Classification and Classification Matching[J]. Engineering of Surveying and Mapping, 2013, 22(2):5-9 doi:  10.3969/j.issn.1006-7949.2013.02.002
    [15] Chien J T. Linear Regression Based Bayesian Predictive Classification for Speech Recognition[J]. IEEE Trans Speech Audio Processing, 2003, 11(1):70-79 doi:  10.1109/TSA.2002.805640
    [16] Li Xin, Guo Yuhong. Active Learning with Multi-label SVM Classification[C]. International Joint Conference on Artificial Intelligence, Beijing, China, 2013
    [17] 傅頔.基于标签关联的多标签分类问题的算法改进[D].西安: 西安电子科技大学, 2014

    Fu Di. An Improved Multi-label Classification Based on Label Relationship[D]. Xi'an: Xidian University, 2014
    [18] 熊涛.基于长短时记忆网络的多标签文本分类[D].杭州: 浙江大学, 2017

    Xiong Tao. Multi-label Text Classification Based on Long Short Term Memory[D].Hangzhou: Zhejiang Univisity, 2017
    [19] 牛罡, 罗爱宝, 商琳.半监督文本分类综述[J].计算机科学与探索, 2011, 5(4):313-323 doi:  10.3778/j.issn.1673-9418.2011.04.003

    Niu Gang, Luo Aibao, Shang Lin. A Survey of Semi-supervised Text Categorization[J]. Journal of Frontiers of Computer Science and Technology, 2011, 5(4):313-323 doi:  10.3778/j.issn.1673-9418.2011.04.003
    [20] 徐淼.弱监督多标记学习[D].南京: 南京大学, 2017

    Xu Miao. Weakly Supervised Multi-label Learning[D]. Nanjing: Nanjing University, 2017
    [21] Adams B, Mckenzie G. Crowdsourcing the Character of a Place: Character‐Level Convolutional Networks for Multilingual Geographic Text Classification[J]. Transactions in GIS, 2018, 22(1):394-408 http://cn.bing.com/academic/profile?id=25e34d7f35093d5ef5d37b44f8fb5489&encoded=0&v=paper_preview&mkt=zh-cn
    [22] Huang Yuxia. A Latent Semantic Analysis-Based Approach to Geographic Feature Categorization from Text[C]. The Fifth IEEE International Conference on Semantic Computing, Pittsburgh, PA, USA, 2011
    [23] 盖森, 刘建忠, 熊伟, 等.一种结合LDA主题分析的地理信息检索方法[J].测绘科学技术学报, 2015(3):315-320 doi:  10.3969/j.issn.1673-6338.2015.03.020

    Gai Sen, Liu Jianzhong, Xiong Wei, et al. An Approach for Geographical Information Retrieval with LDA Topic Analysis[J]. Journal of Geomatics Science and Technology, 2015(3):315-320 doi:  10.3969/j.issn.1673-6338.2015.03.020
    [24] International Standards Organization. ISO 19115 Geographic Information-Metadata Workbook[EB/OL]. ftp://ftp.ncddc.noaa.gov/pub/Metadata/Online_ISO_Training/Intro_to_ISO/workbooks/MD_Metadata.pdf, 2016
    [25] Federal Geographic Data Committee. Content Standard for Digital Geospatial Metadata[EB/OL]. https://www.fgdc.gov/standards/projects/metadata/base-metadata/v2_0698.pdf, 2017
    [26] 崔丽美, 谢传节, 杨联安, 等.基于XML Schema地球系统科学数据的元数据扩展机制[J].测绘学报, 2005, 34(3):246-251 doi:  10.3321/j.issn:1001-1595.2005.03.011

    Cui Limei, Xie Chuanjie, Yang Lian'an, et al. MetaData Extension Mechanism of Earth System Science Data on Base of XML Schema[J]. Acta Geodaetica et Cartograghic Sinica, 2005, 34(3):246-251 doi:  10.3321/j.issn:1001-1595.2005.03.011
    [27] 姜峰, 范玉顺. UDDI与Web服务扩展元数据拓扑映射[J].清华大学学报(自然科学版), 2009, 49(7):1 080-1 084 doi:  10.3321/j.issn:1000-0054.2009.07.039

    Jiang Feng, Fan Yushun. Topological Mapping Between UDDI and Web Service Extended Metadata[J]. J TsingHua Univ(Sci and Tech), 2009, 49(7):1 080-1 084 doi:  10.3321/j.issn:1000-0054.2009.07.039
    [28] GEO. GEO's Societal Benefit Areas[EB/OL]. http://www.aprsaf.org/data/feature/f_086_3.pdf, 2017
    [29] Raskin R G, Pan M J. Knowledge Representation in the Semantic Web for Earth and Environmental Terminology (SWEET)[J]. Computers and Geosciences, 2005, 31(9):1 119-1 125 doi:  10.1016/j.cageo.2004.12.004
    [30] Fellbaum C, Miller G. WordNet: An Electronic Lexical Database[M]. Cambridge: MIT Press, 1998
    [31] Salton G, Buckley C. Term-Weighting Approaches in Automatic Text Retrieval[J]. Information Processing and Management, 1988, 24(5):513-523 doi:  10.1016/0306-4573(88)90021-0
    [32] 陈丽莎.自动问答系统中基于WordNet的句子相似度计算研究与实现[D].广州: 华南理工大学, 2014

    Chen Lisha. The Research and Implementation on WordNet-Based Sentence Similarity of Automatic Question Answering System[D]. Guangzhou: South China University of Technology, 2014
    [33] 郭小华, 彭琦, 邓涵, 等.基于边权重的WordNet词语相似度计算[J].计算机工程与应用, 2018, 54(1):172-178) http://d.old.wanfangdata.com.cn/Periodical/jsjgcyyy201801027

    Guo Xiaohua, Peng Qi, Deng Han, et al. Edge Weight-Based Word Similarity Computation in WordNet[J]. Computer Engineering and Applications, 2018, 54(1):172-178 http://d.old.wanfangdata.com.cn/Periodical/jsjgcyyy201801027
  • [1] 曹启程, 朱欣焰, 吴瑞龙, 李铭.  基于本体的遥感数据需求文本时间获取及其语义计算 . 武汉大学学报 ● 信息科学版, 2021, 46(7): 1114-1122. doi: 10.13203/j.whugis20190240
    [2] 刘涛, 张晓辉, 杜萍, 杜清运, 李爱勤, 龚丽芳.  文本大数据中地震应急的知识发现方法 . 武汉大学学报 ● 信息科学版, 2020, 45(8): 1205-1213. doi: 10.13203/j.whugis20200106
    [3] 万幼, 刘耀林.  基于地理加权中心节点距离的网络社区发现算法 . 武汉大学学报 ● 信息科学版, 2019, 44(10): 1545-1552. doi: 10.13203/j.whugis20180025
    [4] 王艳东, 付小康, 李萌萌.  一种基于共词网络的社交媒体数据主题挖掘方法 . 武汉大学学报 ● 信息科学版, 2018, 43(12): 2287-2294. doi: 10.13203/j.whugis20180225
    [5] 许峰, 尹峻松, 黄立威.  一种基于软件网络的重要服务发现方法 . 武汉大学学报 ● 信息科学版, 2015, 40(11): 1557-1562. doi: 10.13203/j.whugis20130662
    [6] 曾兴国, 杜清运, 任 福.  一种采用mashup的网络地图多变量制图方法 . 武汉大学学报 ● 信息科学版, 2015, 40(9): 1215-1219. doi: 10.13203/j .whu g is20130468
    [7] 牛继强, 徐丰, 李卓凡, 洪晓峰.  顾及地理实体语义相似度的土地用途分区模型 . 武汉大学学报 ● 信息科学版, 2015, 40(6): 816-822. doi: 10.13203/j.whugis20130647
    [8] 成晓强, 艾廷华, 杨敏.  一种决策驱动的地图综合服务语义增强方法 . 武汉大学学报 ● 信息科学版, 2014, 39(5): 561-565. doi: 10.13203/j.whugis20120208
    [9] 何杰, 陈能成, 郑重, 王伟.  利用语义的多版本网络覆盖服务模式匹配方法 . 武汉大学学报 ● 信息科学版, 2012, 37(2): 210-214.
    [10] 韩元利, 刘一平, 王汉东, 朱庆.  大型工程中的WMS数据获取与集成应用方法 . 武汉大学学报 ● 信息科学版, 2012, 37(6): 741-745.
    [11] 亢孟军, 杜清运, 翁敏.  利用用户事件模型的网络地图服务策略 . 武汉大学学报 ● 信息科学版, 2011, 36(5): 560-563.
    [12] 徐侃, 杨文, 陈丽君, 孙洪.  利用主题模型的遥感图像场景分类 . 武汉大学学报 ● 信息科学版, 2011, 36(5): 540-543.
    [13] 张立朝, 潘贞, 王青山, 郑海鹰.  本体驱动的地理信息服务发现模型研究 . 武汉大学学报 ● 信息科学版, 2009, 34(6): 641-645.
    [14] 陈能成, 陈泽强, 王伟.  一种基于能力匹配和本体推理的高精度Web地图服务发现方法 . 武汉大学学报 ● 信息科学版, 2009, 34(12): 1471-1475.
    [15] 周新忠, 孟令奎, 王永杰, 郭朋飞.  面向对象的地理空间信息元数据标准研制方法 . 武汉大学学报 ● 信息科学版, 2007, 32(6): 477-480.
    [16] 喻丹丹, 何炎祥, 涂国庆.  基于市场规则的SIG资源管理模型 . 武汉大学学报 ● 信息科学版, 2005, 30(9): 837-840.
    [17] 安杨, 边馥苓, 关佶红.  基于Ontology的网络地理服务描述与发现 . 武汉大学学报 ● 信息科学版, 2004, 29(12): 1063-1066.
    [18] 赵文光.  中距离物理测距边大地主题正算 . 武汉大学学报 ● 信息科学版, 1987, 12(2): 87-97.
    [19] 张学廉.  嵌套系数法——精密解算任何距离大地主题 . 武汉大学学报 ● 信息科学版, 1985, 10(1): 78-91.
    [20] 朱杰, 张宏军, 廖湘琳, 徐有为.  一种融合多维关系的地理环境时空主题发现方法 . 武汉大学学报 ● 信息科学版, 0, 0(0): -. doi: 10.13203/j.whugis20210326
  • 加载中
图(6) / 表(1)
计量
  • 文章访问数:  968
  • HTML全文浏览量:  71
  • PDF下载量:  199
  • 被引次数: 0
出版历程
  • 收稿日期:  2018-06-14
  • 刊出日期:  2019-11-05

一种WMS领域主题文本提取及元数据扩展方法

doi: 10.13203/j.whugis20180083
    基金项目:

    国家自然科学基金 41501434

    国家自然科学基金 41501443

    作者简介:

    张敏, 硕士, 主要从事WebGIS研究。zhangmin0167@whu.edu.cn

    通讯作者: 桂志鹏, 博士, 副教授。zhipeng.gui@whu.edu.cn
  • 中图分类号: P208

摘要: 由于网络地图服务(Web map service,WMS)元数据缺乏显式的领域主题描述机制,用户很难准确、全面地发现目标领域的地图数据资源。提出了一种面向地理信息资源检索的WMS领域主题文本提取及元数据扩展方法。首先,设计了一种非监督文本分类算法,利用地球与环境术语集语义网(semantic Web of Earth and environmental terminology,SWEET)和大型英语词汇语义网WordNet,综合计算WMS元数据能力文档中地学术语、通识型词汇与领域主题的语义相关度,为WMS及其图层提取多标签主题。然后,基于ISO19115 2003地理信息元数据标准,为WMS元数据组织模型扩展领域主题。实验结果表明,所提出的WMS元数据主题分类算法取得了较高的查准率和查全率,且相较于朴素贝叶斯、线性支持向量机(support vector machine,SVM)和逻辑回归等方法,整体上有较大的优势。该方法有望应用于当前的地理信息门户和目录服务,辅助用户快速、准确地定位目标领域的地图服务资源。

English Abstract

张敏, 桂志鹏, 成晓强, 曹军, 吴华意. 一种WMS领域主题文本提取及元数据扩展方法[J]. 武汉大学学报 ● 信息科学版, 2019, 44(11): 1730-1738. doi: 10.13203/j.whugis20180083
引用本文: 张敏, 桂志鹏, 成晓强, 曹军, 吴华意. 一种WMS领域主题文本提取及元数据扩展方法[J]. 武汉大学学报 ● 信息科学版, 2019, 44(11): 1730-1738. doi: 10.13203/j.whugis20180083
ZHANG Min, GUI Zhipeng, CHENG Xiaoqiang, CAO Jun, WU Huayi. A Text-Based WMS Domain Themes Extraction and Metadata Extension Method[J]. Geomatics and Information Science of Wuhan University, 2019, 44(11): 1730-1738. doi: 10.13203/j.whugis20180083
Citation: ZHANG Min, GUI Zhipeng, CHENG Xiaoqiang, CAO Jun, WU Huayi. A Text-Based WMS Domain Themes Extraction and Metadata Extension Method[J]. Geomatics and Information Science of Wuhan University, 2019, 44(11): 1730-1738. doi: 10.13203/j.whugis20180083
  • 网络地图服务(Web map service,WMS)是开放地理空间联盟(Open Geospatial Consortium,OGC)网络服务系列规范中应用最广泛的一种在线地图绘制服务[1-3]。一项全球WMS资源调查显示,已有超过4万个WMS被公开发布[4],地图数据涵盖了地质、生态、人文和经济等诸多领域主题。但当前WMS元数据中领域主题的描述并不完善,用户很难直接定位目标领域的服务。

    如何提高地理资源检索精度一直是地理信息领域的研究热点。Data.gov[5]、NASA GCMD[6]和GEOSS Clearinghouse[7]等一大批空间数据基础设施通过关键字,配合时间和空间范围等约束条件实现资源检索。2011年美国国家科学基金项目EarthCube[8]进一步将地球科学领域的跨学科数据发现和共享列为亟待解决的重要议题。为了改善服务元数据信息维度过于单一和检索结果可区分性不够的问题,学者们设计服务质量评估和用户打分作为服务评价和筛选的参考依据,实现最优服务推荐[9-10];引入资源元数据与搜索需求的语义相关性评价与描述机制,提高服务检索查准率[11];根据用户人机交互行为识别感兴趣的WMS图像,并基于图像内容检索和用户反馈机制推荐目标服务[12]。这些方法一定程度上提升了地理信息资源,特别是WMS资源的检索准确率与效率。然而由于WMS元数据缺乏显式的领域主题描述机制,面对领域用户特定专题WMS的快速发现仍然缺乏有效手段。

    确定地图内容的领域主题并在WMS元数据中显式描述这些主题,是目标领域服务查找的关键。首要问题是如何从WMS元数据文本中准确提取领域主题。主题提取通常采用文档主题生成模型(latent Dirichlet allocation,LDA)[13],但由于WMS元数据文本内容混杂,导致提取结果包含过多与领域无关的主题,用户无法依赖这些主题直接定位目标领域的服务。支持向量机(support vector machine,SVM)[12]、朴素贝叶斯[14]、线性回归[15]等方法也广泛应用于文本分类。这些方法多适用于二分类且依赖大量样本训练模型,但一个WMS可能同时涵盖多个领域,WMS主题提取本质上是多标签多分类问题。为改善这些方法在多标签分类中的局限性,学者们结合最大边缘预测不确定性策略和标签基数不一致策略,改进SVM分类器[16]; 基于朴素贝叶斯设计启发式动态链分类模型,寻找最小错误的标签顺序[17];基于长短时记忆网络模型,训练多个线性回归分类器联合预测[18]。此外,半监督[19]、弱监督[20]等方法被用于减轻机器学习方法对训练样本的依赖;字符型卷积神经网络[21]、潜在语义分析模型[22]、夹角余弦及KL距离计算[23]等方法被用于迎合地理信息文本的地学特性。这些方法能够为WMS元数据匹配多领域主题标签,但分类过程未全面考虑WMS元数据中的地学术语和通识语义。目前网络上也没有公开的带有完备领域主题标识的WMS数据集,训练样本获取较为困难。因此,本文结合WMS元数据的文本语义来实现WMS的非监督多标签分类。

    其次,如何以规范兼容的方式在现有WMS元数据模型中扩展领域主题也是成功推广主题描述的关键。当前主流目录服务主要采用ISO19115[24]、地球空间数据元数据内容标准(content standard for digital geospatial metadata,CSDGM)[25]等地理信息描述标准组织WMS元数据。这些标准通过数据类型、数据发布机构和学科信息等关键词描述资源特征,内容宽泛且随意性大,对具体维度的描述不够全面。为此,学者们对WMS元数据进行了多层级地理学科标签[26]、服务质量的描述单元[27]等多个维度的扩展,促进了资源的检索与共享。但鲜有研究基于通用ISO元数据标准为WMS扩展领域主题,检索系统和终端用户也仍旧无法直接依赖现有元数据模型锁定目标领域的WMS。

    鉴于此,本文提出了一种面向地理信息检索的WMS领域主题提取及元数据扩展方法,设计了基于语义路径的非监督多标签分类算法, 为WMS及其图层自动提取主题标签,并扩展了WMS元数据模型的领域主题信息。

    • 为了准确、全面地提取WMS元数据能力文档中的领域主题,本文设计了一种非监督多标签文本分类算法。该算法以社会受益领域(societal benefit areas,SBAs)[28]为分类体系,通过计算特征词与主题的语义距离衡量WMS与主题的相关度,为WMS及其图层标记多标签领域主题。

      SBAs是国际地球观测组织(Group on Earth Observations,GEO)提出的地学领域的9大兴趣主题,包括农业(Agriculture)、生物多样性(Biodiversity)、气候(Climate)、灾害(Disaster)、生态(Ecosystem)、能源(Energy)、健康(Health)、水(Water)和天气(Weather),能够较为全面地描述地学领域的应用范围。此外,全球开放的WMS提供了大量地质数据,考虑到地质领域用户对这类WMS的搜索需求,本文在SBAs的基础上增加了“地质(Geology)”主题。

    • 文本特征词与主题的语义距离计算是主题分类的基础。WMS元数据能力文档中包含大量地学术语和通识型特征词,二者对主题分类同样重要。因此,本文利用地球与环境术语集语义网(semantic Web of Earth and environmental terminology,SWEET)[29]和大型英语词汇语义网WordNet[30]两个语料库,综合考虑WMS元数据中地学术语和通识特征词的语义,设计了一种特征词与主题的语义距离计算方法。

      SWEET是美国国家航空航天局NASA提出的地学领域应用最广泛的本体库,详细描述了包括SBAs在内的地理本体间的关联网络。SWEET仅定义了地学术语,但WMS元数据能力文档中包含大量SWEET没有却对分类结果贡献较大的通识型词汇。WordNet是一个覆盖范围宽广的词汇网,能够在一定程度上对SWEET进行补充,并且二者都将名词间的蕴涵关系定义为上位/下位关系,上位词指概念上外延更广的词,图 1中以“is-a”代表词语间的上下位关系,如“水”是“液态水”的上位词,一层上下位关系的语义距离为1。因此,考虑WMS的地学领域背景,本文以SWEET的语料层次关系为主、WordNet为辅进行距离计算,计算过程包括两个步骤:

      图  1  特征词与主题的最短路径示例

      Figure 1.  Examples of Shortest Path Between Feature Words and Domain Theme "Water"

      1)查找特征词在SWEET中的替代词。若特征词A被SWEET收录,则该词的替代词BA本身,AB间最短距离D1为0;若特征词A未被SWEET收录,则利用WordNet逐层级查找特征词的上位词,直至找到在SWEET中有定义的上位词,该上位词即是特征词A的替代词BAB间最短距离D1用WordNet计算。

      2)计算特征词与主题的最短距离。利用SWEET计算替代词B与主题T的最短距离D2,则特征词A与主题T的最短距离D3=D1+D2。如图 1(a)中“冰川”被SWEET收录,D1=0,D2=3,则“冰川”与“水”的最短距离D3=3;图 1(b)中“粒雪”未被SWEET收录,其替代词为“冰”,D1=1,D2=2,则“粒雪”与“水”的最短距离D3=3。以上方法紧密贴合WMS的领域特性,并考虑了通识特征词对分类结果的影响。

    • 依据特征词与主题的语义距离,实现WMS及其图层的多标签领域主题分类,共包含5个步骤:

      1)抽取描述文本。从WMS元数据能力文档中解析描述服务特征和标识应用领域的文本内容作为分类源数据。例如,图层的描述文本包括图层名称、标题、摘要和关键字等字段。

      2)文本预处理。对描述文本进行文本分词、词形还原和去除停用词,以降低分类时间成本并减小“脏”数据对分类结果的影响。

      3)计算词频-逆文档频率(term frequency- inverted document frequency,TF-IDF)。利用TF-IDF[31]算法为文档集中的每个特征词确定权重,通过综合考虑了特征词在文档和文档集中的频率。计算公式为:

      $$ F\left( {{t_j}} \right) = \frac{{n\left( {T,{t_j}} \right)}}{{{n_T}}} $$ (1)
      $$ I\left( {{t_j}} \right) = {\rm{lg}}\left( {\frac{k}{{{k_{{t_j}}} + 1}}} \right) $$ (2)
      $$ W\left( {{t_j}} \right) = F\left( {{t_j}} \right) \times I\left( {{t_j}} \right) $$ (3)

      式中,F为特征频率,描述特征词在文档中的频率;n(Ttj)为特征词tj在文档T中出现的次数;nT指文档T中所有特征词的个数;I为逆文档频率,用包含特征词的文档数计算;k为文档总数;ktj指包含特征词tj的文档数;W (tj)为特征词tj的权重,通过FI的乘积计算得到。

      4)计算语义最短距离。通过§1.1中的方法计算特征词与主题的语义最短距离。

      5)计算文档与主题相关度。计算文档中所有特征词的权重和特征词与主题的距离乘积的累和R (pi):

      $$ R\left( {{p_i}} \right) = \Sigma \left[ {W\left( {{t_j}} \right) \times \left( {1/P\left( {{p_i},{t_j}} \right)} \right)} \right] $$ (4)

      式中,P (pitj)为主题pi到特征词tj的最短距离;1/P (pitj)表征主题pi到特征词tj的相关度[32]。依据文献[33]设置分类阈值为0.5,判定相关度大于阈值的主题均为元数据主题。

      通常一个WMS包含多份不同领域主题的地图数据。本文通过上述算法基于图层元数据直接计算图层主题,而WMS的主题由服务描述文本内容(摘要、标题、关键字等)中提取的主题和各图层的主题共同决定。具体而言,首先根据图 2中的方法计算WMS描述文本与各主题的语义相关度CW,接着计算图层lm与各主题的相关度Cl m,最后根据式(5)确定WMS与各主题的相关度R (pi),并依据阈值确定主题。若WMS元数据能力文档中描述文本缺失或缺乏有效特征词,则判定WMS或图层领域主题匹配失败。

      图  2  基于ISO19115 2003地理信息元数据标准的WMS元数据扩展模型

      Figure 2.  Extended WMS Metadata Model Based on ISO19115 2003 Geographic Information Metadata Standard

      $$ R\left( {{p_i}} \right) = {\rm{max}}\left\{ {{C_W},{C_{{l_0}}} \ldots {C_{{l_m}}}} \right\} $$ (5)

      上述算法为WMS及其图层提取了多领域主题标签以及每个主题的相关度。为了更好地支持WMS资源发现和服务推荐,本文进一步扩展了WMS元数据模型,使得标准地理信息目录服务的注册信息模型能够支持领域主题描述。

    • 元数据组织模型使用统一的术语和格式描述地理信息资源,能够更好地支持资源的共享与发现。国际标准化组织(International Organization for Standardization,ISO)发布的ISO19115 2003地理信息元数据标准,因其灵活性和可扩展性被广泛地应用于Data.gov、NASA GCMD等地理信息门户。因此,本文基于ISO19115 2003地理信息元数据标准建立了一种扩展领域主题的WMS元数据组织模型,如图 2所示。

      ISO19115 2003地理信息元数据标准按照元素区、元素包和数据元素进行组织。元素区描述元数据不同维度;元素包解释元素区属性;元素表示元数据具体属性值,一个元素可由多个元素包构成。如图 2所示,元素包MD_Identification表示元数据标识信息,SV_ServiceIdentification表示服务标识信息。SV_ServiceIdentification中除serviceType、serviceTypeVersion、resourceFormat、extent和abstract分别代表服务类型、服务版本、格式、地理范围和摘要外,还包含pointOfContact、descriptionKeywords和graphicOverview。这些元素分别以CI_ResponsibleParty、MD_Keywords和MD_BrowseGraphic描述服务的发布机构责任人、描述关键词和图层。一个服务可对应多组descriptionKeywords,每组以keyword、type和thesaurusName分别定义关键词、类型和来源,当type为“theme”时,该组descriptionKeywords描述元数据的主题。

      本文对WMS领域主题的扩展是在descriptionKeywords中增加元素包MD_Keywords,domain theme的主题目录来自Theme Schema,即本文设定的主题类别;keyword为WMS主题与相关度的字符串组合,一个MD_Keywords可包含多组keyword描述WMS的多个主题。考虑到图层graphicOverview中只定义了fileName、fileDescription和fileType,且ISO19115不支持对该元素进行扩展,本文利用MD_ExtendedElementInformation扩展图层的主题信息,并分别用name、definition、dataType和rule描述图层的名称、图层的主题及其相关度、主题的数据类型和扩展规则。

      上述扩展模型以XML格式组织,与现有目录服务和地理信息门户的元数据存储管理方式兼容,可以直接扩展到其他OGC数据服务支持领域主题描述。通过定义网络目录服务(catalogue service for the Web, CSW)查询过滤规则Filter能够实现领域主题及其相关度的匹配检索。

    • 实验数据来自网络爬取的全球不同国家、地区和机构的46 298个WMS [3]。除去元数据相关字段中未包含文本信息的WMS,剩余可用WMS 40 722个,可用图层210 732个。这些WMS源自美国国家航空航天局(National Aeronautics and Space Administration,NASA)和美国国家海洋和大气管理局(National Oceanic and Atmospheric Administration,NOAA)等989个服务提供者,图层空间覆盖全球。图层分类的文本数据来自WMS元数据能力文档中Layer标签下的名称、标题、摘要、关键字和属性字段,WMS分类的文本数据来自Service标签下的URL、标题、摘要和关键字字段。

      不同提供者注册的WMS文本质量参差不齐,摘要篇幅长短不一,如何从多样化的服务中准确、全面地提取领域主题,是本文关注的重点。

    • 文本篇幅、文本语言和WMS元数据匹配的主题个数都会对分类结果产生影响。本文依据数据分布,结合分位规则将文本篇幅划分为较短(100字以下)、适中(100~200字)和较长(200字以上);将WMS元数据匹配的主题个数划分为0~1、2~3和3以上;将文本语言划分为英语和其他语言。本文从可用WMS中随机选取实验样本,人工标注样本主题,并计算主题提取的查准率与查全率,实验结果见表 1。实验结果表明本文算法对不同特征数据分类的整体效果较好。其中,篇幅较长的文本包含较多噪声,因此随着篇幅长度的增加,分类效果逐渐下降;主题个数增多时,主题完全准确匹配的难度增加,因此随着主题个数增多分类性能逐渐降低。由于语料库的限制,本文算法也无法甄别非英语特征词。

      表 1  针对不同元数据文本篇幅、文本语言和主题个数的WMS主题分类结果对比

      Table 1.  Classification of WMSs with Different Metadata Document Lengths, Languages and Numbers of Themes

      特征文本 特征维度 样本数 查准率 查全率 平均查准率 整体查全率
      文本篇幅 较短(< 100字) 200 0.855 0.748 0.743 0.653
      适中(100~200字) 200 0.704 0.609
      较长(> 200字) 200 0.671 0.601
      文本语言 英语 250 0.857 0.603 0.721 0.573
      其他语言 250 0.584 0.542
      主题个数 < 2个 180 0.920 0.801 0.762 0.701
      2~3个 180 0.714 0.693
      > 3个 180 0.651 0.608

      为了进一步确定本文算法的适用场景,选取了3个示例WMS进行实验。如图 3(a)中不同颜色代表不同主题,绿色代表本文算法未识别但标识主题的特征词。实验结果表明,若元数据文本无领域含义,本文判定其无主题;若元数据文本包含非英语或生僻术语,本文无法提取全部主题,如图 3(b)德国发布的水文地质WMS,本文算法未提取到主题“水”;若元数据文本语料充足,本文算法能够依据语义全面匹配主题,如图 3(c)能基于“酸雨”等特征词匹配到“灾害”主题。

      图  3  3个示例WMS分类结果

      Figure 3.  Classification Experiment Results of Three Selected WMS Examples

      综上,本文针对英文且包含丰富主题词汇的文本,分类效果较好;对非英文或鲜有主题词汇的文本,无法准确、全面地提取主题。

      此外,本文算法在WMS的主题提取中,兼顾了WMS描述文本及其图层的主题。如图 3(c)的WMS中“生物多样性”相关特征词数量较主题“天气”“气候”少,但其相关度更高。原因是WMS的主题由服务描述文本内容和WMS所包含图层的主题共同决定。图 3(c)中WMS包含了描述“野生生物保护”的图层,因此尽管Service子标签下描述“生物多样性”的特征词数量较少,但其与“生物多样性”的综合相关度较高(见图 4)。

      图  4  示例WMS各图层及WMS主题隶属度计算

      Figure 4.  Layers and Themes Relevancies of Exemplary WMS

    • 从元数据文本中提取领域主题本质上是文本分类问题,本文选取朴素贝叶斯、逻辑回归、线性SVM等常用文本分类算法,以及单独使用SWEET本体库或WordNet词典的方法作为对比,验证本文算法的准确性。实验基于Python语言编程实现,利用NLTK库进行数据预处理,sklearn库实现朴素贝叶斯、线性回归和线性SVM算法等监督算法。实验从可用WMS中(10类领域主题)分别随机选取了150个WMS和300个图层作为实验数据,并人工标注样本主题。针对本文算法、基于SWEET和基于WordNet的分类算法等非监督算法,随机抽取实验样本的20%作为测试样本;针对朴素贝叶斯等监督算法,随机抽取实验样本的80%作为训练样本,20%作为测试样本。针对朴素贝叶斯等监督算法,将多标签分类转换为二分类问题,将训练样本中的多标签主题文本拆解为多条单一主题文本,以每条WMS样本的特征词统计量和对应主题构建词向量矩阵作为模型训练输入。利用训练后的模型多次实验获得最优分类结果对应的判别阈值(0.5),划定样本的主题。最后进行十折交叉验证,求解所有主题查准率和查全率的平均值,如图 5所示。

      图  5  6种文本分类算法查准率和查全率对比

      Figure 5.  Comparison of Accuracy Ratio and Recall Ratio of Six Text Classification Algorithms

      实验结果表明,相比于除朴素贝叶斯外的对照方法,本文算法对WMS和图层的分类效果较好;相比于朴素贝叶斯,本文算法仅对WMS的分类效果较好。主要原因是:(1)朴素贝叶斯等监督算法依赖大量数据训练模型,本文实验人工标定的训练样本数量有限,无法训练出适用于WMS主题多分类的模型,而本文算法以非监督方式提取主题,无需训练样本;(2)对照方法未顾及数据中所有特征词的语义,而本文采用的SBAs和SWEET紧密贴合WMS的地学特性,并在分类过程中结合WordNet,兼顾地学术语和通识型特征词对分类结果的影响。综上,本文算法的分类结果较其他方法好。

      本文图层分类的查准率与朴素贝叶斯相近,查全率较低,因为图层中包含较多生僻术语或非英文特征词,而这些特征词在SWEET、WordNet中均没有定义,本文算法无法准确匹配到全部主题。SVM和逻辑回归训练得到的线性分类模型在本文的多标签多分类应用场景下也不够可靠,而朴素贝叶斯能够通过训练特征词隶属于主题的条件概率,匹配到更全面的文本主题。

    • 除了分类算法整体的分类性能之外,算法在各个类别中分类结果的稳定性也非常重要。为了验证本文算法对各主题的分类性能,对比计算了不同主题下6种算法的分类F1值(见图 6)。F1值是结合查全率和查准率的性能评价指标,值越大,分类结果越好,F1 = 2rp/(r + p),r为查全率,p为查准率。

      图  6  不同主题下6种文本分类算法的F1值对比

      Figure 6.  F1 Value of Different Themes for the Six Text Classification Algorithms

      图 6(a)所示,本文算法在各个主题中的分类结果都优于其他方法。基于SWEET方法对大部分主题的分类结果都比基于WordNet的好,而在生物多样性、地质、健康主题中二者F1值相近,这与SWEET和WordNet对具体专题特征词的覆盖率有关。朴素贝叶斯的分类结果在大部分主题中都仅次于本文算法,除在农业、生态、天气中略低于基于SWEET方法。逻辑回归和线性SVM的分类结果在生物多样性、生态、水、天气中都较其他方法差,导致图 5中这两种方法的平均分类查准率、查全率偏低。由于不同主题WMS和图层元数据文本特征词质量的差异,导致图 6(b)虽然整体趋势和图 6(a)类似,但在农业、气候、生态、水、天气中,朴素贝叶斯分类结果最好,这与图 6中本文算法的图层分类查全率低于朴素贝叶斯的结果一致。

    • 本文方法结合SWEET和WordNet两个语料库综合考虑服务元数据能力文档的地学语义信息和通识语义信息,以非监督方式为WMS及其图层自动标注多标签领域主题;基于ISO19115 2003地理信息元数据标准,为WMS元数据组织模型灵活扩展了领域主题信息。本文提出的结合专题领域语料库和通用词汇网的模式是一种不依赖数据训练、语义驱动的主题提取框架,能够通过较为灵活的方式扩展和替换语料库,从而实现不同专题、不同语言的分类。

      受限于语料库,本文算法仅对英文且包含丰富主题相关词汇的文本,主题提取效果较好;对于非英文或鲜有主题相关词汇的文本,本文算法无法准确、全面地提取领域主题。此外,本文的主题概率判定门限采用固定阈值,缺乏动态适应性,今后将尝试结合语义相似度与弱监督思想,优化基于路径的语义相关度计算算子,设计主题判定门限概率动态自适应策略。同时,本文使用了GEO定义的SBAs作为分类类别,但SBAs仅能提供粗分类、大众化的主题描述。今后将尝试借鉴NASA GCMD的主题设置构建细粒度、专业化的多层级分类目录。WMS由元数据文本和地图图像共同描述,如何结合服务元数据文本与地图图像内容提取领域主题、空间覆盖等多种维度信息去全面描述WMS也是未来的研究方向。

参考文献 (33)

目录

    /

    返回文章
    返回