留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于网络文本迁移学习的旅游知识图谱构建

高嘉良 陆锋 彭澎 徐阳

高嘉良, 陆锋, 彭澎, 徐阳. 基于网络文本迁移学习的旅游知识图谱构建[J]. 武汉大学学报 ● 信息科学版, 2022, 47(8): 1191-1200. doi: 10.13203/j.whugis20220120
引用本文: 高嘉良, 陆锋, 彭澎, 徐阳. 基于网络文本迁移学习的旅游知识图谱构建[J]. 武汉大学学报 ● 信息科学版, 2022, 47(8): 1191-1200. doi: 10.13203/j.whugis20220120
GAO Jialiang, LU Feng, PENG Peng, XU Yang. Construction of Tourism Attraction Knowledge Graph Based on Web Text and Transfer Learning[J]. Geomatics and Information Science of Wuhan University, 2022, 47(8): 1191-1200. doi: 10.13203/j.whugis20220120
Citation: GAO Jialiang, LU Feng, PENG Peng, XU Yang. Construction of Tourism Attraction Knowledge Graph Based on Web Text and Transfer Learning[J]. Geomatics and Information Science of Wuhan University, 2022, 47(8): 1191-1200. doi: 10.13203/j.whugis20220120

基于网络文本迁移学习的旅游知识图谱构建

doi: 10.13203/j.whugis20220120
基金项目: 

国家自然科学基金 41631177

国家自然科学基金 42001391

详细信息
    作者简介:

    高嘉良,博士生,主要从事知识图谱与推荐系统研究。gaojl@lreis.ac.cn

    通讯作者: 陆锋,博士,研究员,博士生导师。luf@lreis.ac.cn
  • 中图分类号: P208

Construction of Tourism Attraction Knowledge Graph Based on Web Text and Transfer Learning

Funds: 

The National Natural Science Foundation of China 41631177

The National Natural Science Foundation of China 42001391

More Information
    Author Bio:

    GAO Jialiang, PhD candidate, specializes in knowledge graph and recommendation system. E-mail: gaojl@lreis.ac.cn

    Corresponding author: LU Feng, PhD, professor. E-mail: luf@lreis.ac.cn
  • 摘要: 在线旅游服务模式和海量网络文本的出现为旅游产业规划和用户出游推荐提供了新的信息支撑。然而实时更新的网络文本语义模糊、信噪比低,难以利用,由此,提出了一种基于领域本体和迁移学习的旅游知识图谱构建方法。首先,基于行业规范定义了旅游景点特征体系,建立了以旅游景点为核心的旅游知识图谱,支持景点语义特征的全方位刻画;然后,通过迁移学习方法将预训练语言模型改造为定制化知识抽取器,从网络文本中获取知识三元组,并融合游客足迹、兴趣点语义等信息将分散的相关信息整合为系统性的旅游景点知识图谱。知识抽取实验结果表明,相较于常用的LDA(latent Dirichlet allocation)模型,定制化知识抽取器获取的景点语义知识,其精度与完整性分别提升了50.7%和670%。所构建的旅游景点知识图谱可全面表达现实中的旅游场景,支撑不同尺度下游客行为与市场需求的深入解析,为旅游目的地可持续发展规划提供决策支持。
  • 图  1  研究框架

    Figure  1.  Research Framework

    图  2  旅游景点知识图谱本体

    Figure  2.  Ontology of Tourist Attraction Knowledge Graph (TAKG)

    图  3  旅游景点知识图谱的时空信息增强

    Figure  3.  Enhancement of Spatiotemporal Information for TAKG

    图  4  旅游景点知识获取流程

    Figure  4.  Flowchart of Knowledge Acquisition of Tourist Attractions

    图  5  旅游景点知识图谱

    Figure  5.  Tourist Attraction Knowledge Graph

    图  6  客源地游客输出量分布

    Figure  6.  Distribution of Tourist Outputs from Different Sources

    图  7  不同类型的旅游景点的满意度与访问频度

    Figure  7.  Satisfaction and Frequency of Different Tourist Attractions

    图  8  旅游目的地景点产业结构对比分析

    Figure  8.  Comparative Analysis of Tourist Destination Industrial Structure

    表  1  定制化知识抽取任务表现

    Table  1.   Performance of Knowledge Extraction Task

    模型 最优提取特征 最差提取特征 平均提取AUC 提取特征数量/个
    子类特征 AUC 子类特征 AUC
    定制化知识抽取器 校园 0.983 中国戏曲 0.626 0.895 77
    LDA模型 博物馆 0.721 游览 0.520 0.594 10
    下载: 导出CSV
  • [1] Lu W L, Stepchenkova S. User-Generated Content as a Research Mode in Tourism and Hospitality Applications: Topics, Methods, and Software[J]. Journal of Hospitality Marketing & Management, 2015, 24(2): 119-154
    [2] Gao J L, Peng P, Lu F, et al. A Multi-scale Comparison of Tourism Attraction Networks Across China[J]. Tourism Management, 2022, 90: 104489 doi:  10.1016/j.tourman.2022.104489
    [3] 刘逸, 保继刚, 朱毅玲. 基于大数据的旅游目的地情感评价方法探究[J]. 地理研究, 2017, 36(6): 1091-1105 https://www.cnki.com.cn/Article/CJFDTOTAL-DLYJ201706009.htm

    Liu Yi, Bao Jigang, Zhu Yiling. Exploring Emotion Methods of Tourism Destination Evaluation: A BigData Approach[J]. Geographical Research, 2017, 36(6): 1091-1105 https://www.cnki.com.cn/Article/CJFDTOTAL-DLYJ201706009.htm
    [4] 赵妍妍, 秦兵, 刘挺. 文本情感分析[J]. 软件学报, 2010, 21(8): 1834-1848 https://www.cnki.com.cn/Article/CJFDTOTAL-RJXB201008009.htm

    Zhao Yanyan, Qin Bing, Liu Ting. Sentiment Analysis[J]. Journal of Software, 2010, 21(8): 1834-1848 https://www.cnki.com.cn/Article/CJFDTOTAL-RJXB201008009.htm
    [5] Brown G, Brown G D, Brown G R, et al. Discourse Analysis[M]. Cambridge: Cambridge University Press, 1983
    [6] 陈旭辉, 苏晓娟, 崔丽霞. 基于社交媒体关系互动的旅游城市形象负面偏差引导策略: 以"青岛天价虾"事件为例[J]. 旅游学刊, 2017, 32(7): 47-56 doi:  10.3969/j.issn.1002-5006.2017.07.010

    Chen Xuhui, Su Xiaojuan, Cui Lixia. Social Media Strategies to Reduce Negativity Bias Towards a Tourist City: A Case Study of Qingdao Pricey Prawn[J]. Tourism Tribune, 2017, 32(7): 47-56 doi:  10.3969/j.issn.1002-5006.2017.07.010
    [7] 文宏. 网络群体性事件中舆情导向与政府回应的逻辑互动: 基于"雪乡"事件大数据的情感分析[J]. 政治学研究, 2019(1): 77-90 https://www.cnki.com.cn/Article/CJFDTOTAL-POLI201901007.htm

    Wen Hong. Logic Interaction Between Public Opinion Orientation and Government Response in Internet Group Crisis Events—Emotional Analysis Based on Big Data of "Snow Village" Event[J]. CASS Journal of Political Science, 2019(1): 77-90 https://www.cnki.com.cn/Article/CJFDTOTAL-POLI201901007.htm
    [8] 邱均平, 邹菲. 关于内容分析法的研究[J]. 中国图书馆学报, 2004, 30 (2): 12-17 doi:  10.3969/j.issn.1001-8867.2004.02.002

    Qiu Junping, Zou Fei. A Study of Content Analysis Methods[J]. The Journal of the Library Science in China, 2004, 30(2): 12-17 doi:  10.3969/j.issn.1001-8867.2004.02.002
    [9] 徐菲菲, 剌利青, Ye Feng. 基于网络数据文本分析的目的地形象维度分异研究: 以南京为例[J]. 资源科学, 2018, 40(7): 1483-1493 https://www.cnki.com.cn/Article/CJFDTOTAL-ZRZY201807016.htm

    Xu Feifei, La Liqing, Ye Feng. A Research on Destination Image and Perceived Dimension Difference Based on Big Data of Tourists - Comments: A Case of Nanjing[J]. Resources Science, 2018, 40(7): 1483-1493 https://www.cnki.com.cn/Article/CJFDTOTAL-ZRZY201807016.htm
    [10] 刘逸, 保继刚, 陈凯琪. 中国赴澳大利亚游客的情感特征研究: 基于大数据的文本分析[J]. 旅游学刊, 2017, 32(5): 46-58 doi:  10.3969/j.issn.1002-5006.2017.05.010

    Liu Yi, Bao Jigang, Chen Kaiqi. Sentimental Features of Chinese Outbound Tourists in Australia: Big-Data Based Content Analysis[J]. Tourism Tribune, 2017, 32(5): 46-58 doi:  10.3969/j.issn.1002-5006.2017.05.010
    [11] Liu Y, Huang K X, Bao J G, et al. Listen to the Voices from Home: An Analysis of Chinese Tourists' Sentiments Regarding Australian Destinations[J]. Tourism Management, 2019, 71: 337-347 doi:  10.1016/j.tourman.2018.10.004
    [12] Guo Y, Barnes S J, Jia Q. Mining Meaning from Online Ratings and Reviews: Tourist Satisfaction Analysis Using Latent Dirichlet Allocation[J]. Tourism Management, 2017, 59: 467-483 doi:  10.1016/j.tourman.2016.09.009
    [13] 陆锋, 张恒才. 大数据与广义GIS[J]. 武汉大学学报·信息科学版, 2014, 39(6): 645-654 doi:  10.13203/j.whugis20140148

    Lu Feng, Zhang Hengcai. Big Data and Generalized GIS[J]. Geomatics and Information Science of Wuhan University, 2014, 39(6): 645-654 doi:  10.13203/j.whugis20140148
    [14] 高松. 地理空间人工智能的近期研究总结与思考[J]. 武汉大学学报·信息科学版, 2020, 45(12): 1865-1874 doi:  10.13203/j.whugis20200597

    Gao Song. A Review of Recent Researches and Reflections on Geospatial Artificial Intelligence[J]. Geomatics and Information Science of Wuhan University, 2020, 45(12): 1865-1874 doi:  10.13203/j.whugis20200597
    [15] 陆锋, 余丽, 仇培元. 论地理知识图谱[J]. 地球信息科学学报, 2017, 19(6): 723-734 doi:  10.3969/j.issn.1560-8999.2017.06.001

    Lu Feng, Yu Li, Qiu Peiyuan. On Geographic Knowledge Graph[J]. Journal of Geo - Information Science, 2017, 19(6): 723-734 doi:  10.3969/j.issn.1560-8999.2017.06.001
    [16] 蒋秉川, 万刚, 许剑, 等. 多源异构数据的大规模地理知识图谱构建[J]. 测绘学报, 2018, 47(8): 1051-1061 https://www.cnki.com.cn/Article/CJFDTOTAL-CHXB201808005.htm

    Jiang Bingchuan, Wan Gang, Xu Jian, et al. Geographic Knowledge Graph Building Extracted from Multi-sourced Heterogeneous Data[J]. Acta Geodaetica et Cartographica Sinica, 2018, 47(8): 1051-1061 https://www.cnki.com.cn/Article/CJFDTOTAL-CHXB201808005.htm
    [17] Huang X, Zhang J Y, Li D C, et al. Knowledge Graph Embedding Based Question Answering[C]//The 12th ACM International Conference on Web Search and Data Mining, Melbourne, Australia, 2019
    [18] Wang Q, Mao Z D, Wang B, et al. Knowledge Graph Embedding: A Survey of Approaches and Applications[J]. IEEE Transactions on Knowledge and Data Engineering, 2017, 29(12): 2724-2743 doi:  10.1109/TKDE.2017.2754499
    [19] Chen X J, Jia S B, Xiang Y. A Review: Knowledge Reasoning over Knowledge Graph[J]. Expert Systems with Applications, 2020, 141: 112948 doi:  10.1016/j.eswa.2019.112948
    [20] Li L F, Wang P, Yan J, et al. Real-World Data Medical Knowledge Graph: Construction and Applications[J]. Artificial Intelligence in Medicine, 2020, 103: 101817 doi:  10.1016/j.artmed.2020.101817
    [21] Wen S G, Li J P, Zhu X Q, et al. Analysis of Financial Fraud Based on Manager Knowledge Graph [J]. Procedia Computer Science, 2022, 199: 773-779 doi:  10.1016/j.procs.2022.01.096
    [22] 高嘉良, 仇培元, 余丽, 等. 基于旅游知识图谱的可解释景点推荐[J]. 中国科学: 信息科学, 2020, 50(7): 1055-1068 https://www.cnki.com.cn/Article/CJFDTOTAL-PZKX202007007.htm

    Gao Jialiang, Qiu Peiyuan, Yu Li, et al. An Interpretable Attraction Recommendation Method Based on Knowledge Graph[J]. Scientia Sinica(Informationis), 2020, 50(7): 1055-1068 https://www.cnki.com.cn/Article/CJFDTOTAL-PZKX202007007.htm
    [23] Devlin J, Chang M W, Lee K, et al. BERT: Pretraining of Deep Bidirectional Transformers for Language Understanding[J]. arXiv, 2018, DOI: 1810.04805
    [24] 岳增营, 叶霞, 刘睿珩. 基于语言模型的预训练技术研究综述[J]. 中文信息学报, 2021, 35(9): 15-29 doi:  10.3969/j.issn.1003-0077.2021.09.002

    Yue Zengying, Ye Xia, Liu Ruiheng. A Survey of Language Model Based Pre-training Technology [J]. Journal of Chinese Information Processing, 2021, 35(9): 15-29 doi:  10.3969/j.issn.1003-0077.2021.09.002
    [25] Merinero-Rodríguez R, Pulido-Fernández J I. Analysing Relationships in Tourism: A Review[J]. Tourism Management, 2016, 54: 122-135 doi:  10.1016/j.tourman.2015.10.010
    [26] Sun Y, Wang S H, Feng S K, et al. ERNIE 3.0: Large-Scale Knowledge Enhanced Pre-Training for Language Understanding and Generation[J]. arXiv, 2021, DOI: 2112.12731
    [27] Vaswani A, Shazeer N, Parmar N, et al. Attention Is All You Need[C]//The 31st International Conference on Neural Information Processing Systems, California, USA, 2017
    [28] 庄福振, 罗平, 何清, 等. 迁移学习研究进展[J]. 软件学报, 2015, 26 (1): 26-39 https://www.cnki.com.cn/Article/CJFDTOTAL-RJXB201501003.htm

    Zhuang Fuzhen, Luo Ping, He Qing, et al. Survey on Transfer Learning Research[J]. Journal of Software, 2015, 26(1): 26-39 https://www.cnki.com.cn/Article/CJFDTOTAL-RJXB201501003.htm
    [29] Zhang M L, Zhou Z H. A Review on Multi-Label Learning Algorithms[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(8): 1819-1837 doi:  10.1109/TKDE.2013.39
  • [1] 李彦胜, 张永军.  耦合知识图谱和深度学习的新一代遥感影像解译范式 . 武汉大学学报 ● 信息科学版, 2022, 47(8): 1176-1190. doi: 10.13203/j.whugis20210652
    [2] 覃星力, 杨杰, 李平湘, 赵伶俐, 孙开敏.  迁移学习用于多时相极化SAR影像的水体提取 . 武汉大学学报 ● 信息科学版, 2022, 47(7): 1093-1102. doi: 10.13203/j.whugis20200121
    [3] 刘俊楠, 刘海砚, 陈晓慧, 郭漩, 郭文月, 朱新铭, 赵清波, 李佳.  利用知识图谱的恐怖主义事件模型 . 武汉大学学报 ● 信息科学版, 2022, 47(2): 313-322. doi: 10.13203/j.whugis20190428
    [4] 朱庆, 王所智, 丁雨淋, 曾浩炜, 张利国, 郭永欣, 李函侃, 王万齐, 宋树宝, 郝蕊, 程智博.  铁路隧道钻爆法施工智能管理的安全质量进度知识图谱构建方法 . 武汉大学学报 ● 信息科学版, 2022, 47(8): 1155-1164. doi: 10.13203/j.whugis20210573
    [5] 张永军, 程鑫, 李彦胜, 王飞, 刘晓健, 吴文品.  利用知识图谱的国土资源数据管理与检索研究 . 武汉大学学报 ● 信息科学版, 2022, 47(8): 1165-1175. doi: 10.13203/j.whugis20210714
    [6] 刘涛, 张晓辉, 杜萍, 杜清运, 李爱勤, 龚丽芳.  文本大数据中地震应急的知识发现方法 . 武汉大学学报 ● 信息科学版, 2020, 45(8): 1205-1213. doi: 10.13203/j.whugis20200106
    [7] 蒋秉川, 游雄, 李科, 周小军, 温荟琦.  利用地理知识图谱的COVID-19疫情态势交互式可视分析 . 武汉大学学报 ● 信息科学版, 2020, 45(6): 836-845. doi: 10.13203/j.whugis20200153
    [8] 陈晓慧, 刘俊楠, 徐立, 李佳, 张伟, 刘海砚.  COVID-19病例活动知识图谱构建——以郑州市为例 . 武汉大学学报 ● 信息科学版, 2020, 45(6): 816-825. doi: 10.13203/j.whugis20200201
    [9] 杜志强, 李钰, 张叶廷, 谭玉琪, 赵文豪.  自然灾害应急知识图谱构建方法研究 . 武汉大学学报 ● 信息科学版, 2020, 45(9): 1344-1355. doi: 10.13203/j.whugis20200047
    [10] 陈鹏, 汪本康, 高飒, 童小华, 卢文胜, 徐胜华.  利用ResNet进行建筑物倒塌评估 . 武汉大学学报 ● 信息科学版, 2020, 45(8): 1179-1184. doi: 10.13203/j.whugis20200135
    [11] 陶坤旺, 赵阳阳, 朱鹏, 朱月月, 刘帅, 赵习枝.  面向一体化综合减灾的知识图谱构建方法 . 武汉大学学报 ● 信息科学版, 2020, 45(8): 1296-1302. doi: 10.13203/j.whugis20200125
    [12] 上官博屹, 刘威, 乐鹏, 王密, 江昊, 颜哲人.  一种面向空间信息网络的星地协同计算迁移方法 . 武汉大学学报 ● 信息科学版, 2019, 44(3): 459-466. doi: 10.13203/j.whugis20170269
    [13] 刘轶伦, 黎夏.  利用多源领域知识迁移CA的城市建设用地模拟 . 武汉大学学报 ● 信息科学版, 2014, 39(6): 695-700. doi: 10.13203/j.whugis20140060
    [14] 马春光, 楚振江, 王九如, 王慧强.  异构传感器网络密钥管理框架研究 . 武汉大学学报 ● 信息科学版, 2010, 35(5): 509-511.
    [15] 臧天宁, 云晓春, 张永铮, 门朝光.  利用C-F模型识别僵尸网络迁移 . 武汉大学学报 ● 信息科学版, 2010, 35(5): 622-625.
    [16] 严勇, 李清泉, 孙久运.  投影寻踪学习网络的遥感影像分类 . 武汉大学学报 ● 信息科学版, 2007, 32(10): 876-879.
    [17] 黄解军, 万幼川, 潘和平.  贝叶斯网络结构学习及其应用研究 . 武汉大学学报 ● 信息科学版, 2004, 29(4): 315-318.
    [18] 李德仁, 王树良, 史文中, 王新洲.  论空间数据挖掘和知识发现 . 武汉大学学报 ● 信息科学版, 2001, 26(6): 491-499.
    [19] 李秋萍, 陈宇, 栾学晨.  利用网络游记分析不同类型游客的旅游流网络特征差异——以云南省为例 . 武汉大学学报 ● 信息科学版, 0, 0(0): 0-0. doi: 10.13203/j.whugis20210045
    [20] 林森, 刘蓓蓓, 李建文, 刘旭, 秦昆, 郭桂祯.  基于BERT迁移学习模型的地震灾害社交媒体信息分类研究 . 武汉大学学报 ● 信息科学版, 0, 0(0): 0-0. doi: 10.13203/j.whugis20220167
  • 加载中
图(8) / 表(1)
计量
  • 文章访问数:  108
  • HTML全文浏览量:  53
  • PDF下载量:  55
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-05-01
  • 刊出日期:  2022-08-05

基于网络文本迁移学习的旅游知识图谱构建

doi: 10.13203/j.whugis20220120
    基金项目:

    国家自然科学基金 41631177

    国家自然科学基金 42001391

    作者简介:

    高嘉良,博士生,主要从事知识图谱与推荐系统研究。gaojl@lreis.ac.cn

    通讯作者: 陆锋,博士,研究员,博士生导师。luf@lreis.ac.cn
  • 中图分类号: P208

摘要: 在线旅游服务模式和海量网络文本的出现为旅游产业规划和用户出游推荐提供了新的信息支撑。然而实时更新的网络文本语义模糊、信噪比低,难以利用,由此,提出了一种基于领域本体和迁移学习的旅游知识图谱构建方法。首先,基于行业规范定义了旅游景点特征体系,建立了以旅游景点为核心的旅游知识图谱,支持景点语义特征的全方位刻画;然后,通过迁移学习方法将预训练语言模型改造为定制化知识抽取器,从网络文本中获取知识三元组,并融合游客足迹、兴趣点语义等信息将分散的相关信息整合为系统性的旅游景点知识图谱。知识抽取实验结果表明,相较于常用的LDA(latent Dirichlet allocation)模型,定制化知识抽取器获取的景点语义知识,其精度与完整性分别提升了50.7%和670%。所构建的旅游景点知识图谱可全面表达现实中的旅游场景,支撑不同尺度下游客行为与市场需求的深入解析,为旅游目的地可持续发展规划提供决策支持。

English Abstract

高嘉良, 陆锋, 彭澎, 徐阳. 基于网络文本迁移学习的旅游知识图谱构建[J]. 武汉大学学报 ● 信息科学版, 2022, 47(8): 1191-1200. doi: 10.13203/j.whugis20220120
引用本文: 高嘉良, 陆锋, 彭澎, 徐阳. 基于网络文本迁移学习的旅游知识图谱构建[J]. 武汉大学学报 ● 信息科学版, 2022, 47(8): 1191-1200. doi: 10.13203/j.whugis20220120
GAO Jialiang, LU Feng, PENG Peng, XU Yang. Construction of Tourism Attraction Knowledge Graph Based on Web Text and Transfer Learning[J]. Geomatics and Information Science of Wuhan University, 2022, 47(8): 1191-1200. doi: 10.13203/j.whugis20220120
Citation: GAO Jialiang, LU Feng, PENG Peng, XU Yang. Construction of Tourism Attraction Knowledge Graph Based on Web Text and Transfer Learning[J]. Geomatics and Information Science of Wuhan University, 2022, 47(8): 1191-1200. doi: 10.13203/j.whugis20220120
  • 近年来,随着信息通信技术的飞速发展,网络信息服务已成为现代生活方式的重要组成部分。在旅游产业中,越来越多的游客利用智能移动终端在线预订与评价旅游相关产品与服务,分享出行体验。这一过程产生了海量的用户生成内容(user generated content,UGC),为旅游信息服务和旅游管理提供了新的契机。旅游相关的UGC信息可通过在线平台迅速扩散,为游客出行提供参考[1],可以帮助行业管理部门和从业者实时了解游客偏好和需求,辅助分析旅游市场,实施产业规划,优化商业策略,支撑行业发展决策[2]。散落在各种旅游相关平台上的网络文本是旅游UGC的典型代表,是感知目的地形象的关键数据源[3]。然而,网络文本以非结构化的自然语言形式存在,内容随意、语义模糊,价值密度较低,无法直接应用于统计分析[4]

    针对旅游网络文本数据处理,目前主要有人工内容分析和自动化浅层语义挖掘两种方法。人工内容分析方法通过人工编码、分类和语义判读,将文本转化为可供统计的定量结果,以获取游客的出游体验或目的地形象感知等信息[5-7]。该方法属于自上而下的研究范式,具有严格定义的分析单元、类目系统和内容编码,并且还需通过信度和效度检验对结果进行解析与讨论[8],易形成精细化的体系和标准,但是研究成本较高,限制了数据集规模与研究范围,严重制约了研究结果的可推广性。自动化浅层语义挖掘方法借助非监督的自然语言处理模型批量处理海量文本,可获得文本中的关键词、主题、情感极性、词频共现网络等[9-10],识别游客偏好、舆情、市场需求等[11-12]。该方法属于自底向上的数据驱动研究范式,数据集规模大,实时性好,但易受冗余与虚假信息影响,结果经常存在有偏、歧义和缺失的情况,并且容易受研究者的主观影响,制约研究结论的可信度[13]。目前基于网络文本的旅游相关研究虽已取得很多成果,但普遍存在上述问题,且数据源较单一,研究结论偏常识化和同质化。如何高效处理海量网络文本,融合多源异构的时空数据,精细化抽取旅游相关语义信息,形式化统一表达相关知识,支撑旅游行业分析和用户出行推荐的智能化,是目前旅游大数据研究亟待解决的关键问题。

    针对以上问题,本文提出了一种基于领域本体和迁移学习的旅游知识图谱构建策略,以弥补人工内容分析和自动化浅层语义分析方法的缺陷,并实现两者的优势互补。知识图谱是一种对现实世界要素及关系进行抽象概括的图数据模型,通过“实体-关系-实体”三元组,形式化表达要素关系、事件以及场景,促进知识的计算机管理与智能应用[14-15]。目前,基于知识图谱的知识检索[16]、知识表示[17]、知识推理[18]已广泛应用于多个领域 [19-22]。本文通过预训练语言模型[23]与迁移学习[24],基于领域规范定义的本体架构,将非结构化的网络文本转化为结构化的知识三元组,并融合游客轨迹、兴趣点(point of interest,POI)语义等信息,将分散的旅游相关信息整合为系统性的旅游景点知识图谱,并以此开展游客出行模式、偏好特征、市场需求等分析。

    • 本文通过整合以网络文本为核心的多源UGC数据,采取自顶向下的知识图谱构建策略。首先借助领域专家的行业经验和理论知识,设计知识图谱的模式层,形成本体架构;然后融合多源异构数据,依据本体架构,针对非结构化的网络信息进行系统性的知识抽取,获取知识图谱的数据模式;最后基于所构建的旅游景点知识图谱,开展旅游产业分析。

      本文所提出的研究框架如图 1所示,综合利用了多种旅游出行信息,包括旅游服务平台的游客足迹与在线评论、百科平台的景点概述、导航地图的POI属性等。首先,结合理论体系与行业规范,分析了各信源的内容与形式特征,设计模式层的概念、关系及属性;然后,基于模式层的本体架构,通过迁移学习改造预训练语言模型ERNIE(enhanced language representation with informative entities)实现定制化的知识获取;最后,通过Neo4j图数据库管理系统,存储和调用所构建的旅游景点知识图谱,开展多重时空分析,辅助旅游目的地管理、产业规划和政策制定等决策支持。

      图  1  研究框架

      Figure 1.  Research Framework

    • 本文的研究数据包含旅游景点和游客相关信息。马蜂窝是国内知名的在线旅游服务平台,目前用户总量超过1亿。相较于携程等其他在线旅游服务平台,马蜂窝更加侧重用户自发性的游历分享,而淡化商业推广和交易服务等营销信息[25]。因此,本文以马蜂窝服务平台作为旅游景点在线评论和游客足迹的数据源,采集了覆盖全国340个地级及以上城市的旅游景点UGC数据,并根据游客量评论数和访问量对景点数据进行了预处理,最终所保留的旅游景点UGC数据集涵盖全国主要景点20 481个,涉及用户共56 101位,评论信息10 458 243条,时间跨度为2013-01—2019-04。

      为了进一步丰富景点的语义描述语料,增强知识图谱的要素属性和关系丰度,本文基于百度百科平台采集了所有景点的概述文本信息作为旅游景点UGC数据的补充。此外,本文基于高德地图开放接口采集景点等POI的属性信息,包含位置坐标、营业时间、业务内容、价格区间等。

    • 本体作为知识图谱的概念模式层,预先设定知识三元组的形式与范畴,是知识图谱构建的逻辑架构。因此,在从UGC语料中抽取知识前,首先需要定义景点特征体系作为知识图谱的本体。本文根据《旅游资源分类、调查与评价》和《世界旅游组织旅游统计指南》,综合考虑了游客需求侧和产业供给侧的特征维度,将旅游景点特征体系分为2个层面,包括6个核心大类和下属的94个子类。其中3个核心大类对应功能层面,分别为时代特征、资源类型和气候条件;另外3个核心大类对应认知层面,分别为主题风格、出游时段和承载活动。景点特征本体以自顶向下的研究思路,严格参照旅游管理学科的既定理论体系与行业规范,据此构建的知识图谱可对景点的语义特征进行全方位、多层次、细粒度地刻画。本文所构建的旅游景点知识图谱本体如图 2所示。

      图  2  旅游景点知识图谱本体

      Figure 2.  Ontology of Tourist Attraction Knowledge Graph (TAKG)

      除了网络文本语料,导航地图的POI属性信息、城市统计年鉴、游客足迹以及用户属性等数据呈现为(半)结构化的信息框或表格,可直接转化为三元组形式,一并存储和管理于Neo4j图数据管理系统中。增强后的旅游景点知识图谱本体如图 3所示。在用户需求侧,游客足迹以访问与打分的时间序列方式融合于知识图谱中,并围绕游客实体设置用户属性槽和居住地链接关系。在目的地供给方面,本文将景点等POI设置为属性槽,并补充城市的位置、边界、接待量等空间统计属性,以便支撑后续开展的多重时空分析。

      图  3  旅游景点知识图谱的时空信息增强

      Figure 3.  Enhancement of Spatiotemporal Information for TAKG

    • 旅游景点知识获取主要基于已经定义的概念模式层抽取和融合多源异构旅游数据中相应的内容,来获取相应的实体、属性和关系三元组知识,分为知识抽取和知识融合两个阶段,具体流程如图 4所示。

      图  4  旅游景点知识获取流程

      Figure 4.  Flowchart of Knowledge Acquisition of Tourist Attractions

      1)知识抽取阶段

      本文选用ERNIE[26]作为大规模预训练语言模型进行迁移学习,从UGC文本语料中抽取景点语义特征。ERNIE模型充分继承了自编码语言模型BERT(bidirectional encoder representation from transformers)的优势[23],能够同时提取字词在句子中关系特征和捕捉句段层的关系特征,全面学习句段的语义。该模型通过设计两个子任务完成对超大规模语料库的学习:(1)对语句随机屏蔽15%的字词,然后进行预测填补;(2)利用Transformer[27]的多层自注意力双向建模能力判断句子的上下文关系。相较于原始BERT模型,ERNIE采用海量无监督文本与结构化知识的平行训练方法,引入知识图谱作为正则化项,进一步提升了超大规模分布式训练的表现。通过将实体关系与文本语料进行联合掩码学习,促进结构化知识和非结构化文本之间的信息共享,大幅提升模型对于知识的记忆和推理能力。

      迁移学习是运用已有领域知识,求解其他相关领域问题的一种机器学习方法[28]。该方法放宽了传统机器学习中两个基本假设的约束,即训练集与测试集的独立同分布,以及标注样本量足够充分。其目的是为了迁移已有知识,解决目标领域中仅有少量甚至没有标签样本数据的学习问题。本文对ERNIE模型采取Fine-Tuning迁移学习策略,冻结预训练模型的底部双向Transformer层参数,训练靠近输出的卷积层和全连接层。本文在ERNIE模型预训练结果的基础上,连接Sigmoid多标签分类任务[29]输出层,以交叉熵作为损失函数,输入层调整为标注语义标签的景点语料。

      假设文本文档的样本空间为${\mathcal{X} } = {R^d}$,d为每个文档向量表示的维度,标签空间为${\mathcal{Y}} = \left\{ {{y_1}, {y_2} \cdots {y_C}} \right\}$,C为标签个数。从带有标签集合的m个标注语料中,训练定制化抽取器,实现正确的映射判断${\mathcal{X}} \to {2^{\mathcal{Y}}}$。对于每个标签多标注样本,${x_i} \in {\mathcal{X}}$,文档表示为字段的d维ERNIE预训练向量,${Y_i} \in {\mathcal{Y}}$为该文档对应的特征标签集合。对于未见样本文档${\boldsymbol{x}} \in {\mathcal{X}}$,定制化抽取器,可自动预测$f\left( {\boldsymbol{x}} \right) \subseteq {\mathcal{Y}}$作为该文档的景点特征集合。本文以两层全连接的神经网络实现,输出层的激活函数为Sigmoid函数,即,损失函数为平均二进制交叉熵(binary cross entropy,BCE),计算如下:

      BCEx=j=1CBCE(x)jC ]]>
      BCE(x)j=-yjlogfjx+(1-yj)log(1-fjx) ]]>

      本文实验将标注语料库以6∶2∶2分割为训练集、验证集和测试集,进行知识抽取器的训练和校验。

      2)知识融合阶段

      本文将抽取出的景点特征知识三元组与游客足迹、POI属性、城市统计年鉴等时空信息进行集成和融合,从而构建出完整的旅游景点知识图谱。网页信息框形式的POI属性数据及其表格形式的统计年鉴数据,可按照数据格式制定融合规则,但由于存在多个数据来源,需进行实体对齐。对于景点实体,本文根据景点名称(或别名)的相似度与空间位置的一致性,共完成18 043个景点的匹配。对于地级及以上城市,通过国家基础地理信息系统进行空间查询,匹配一致名称。最终,本文将游客行为知识、POI与城市时空属性知识归入中国景点知识图谱中,完成构建过程。本文基于Neo4J图数据库管理系统,利用SPARQL查询语言管理和调用所构建的旅游景点知识图谱,支撑多重时空统计分析,辅助旅游决策。

    • 经过迁移学习的ERNIE预训练模型,在定制化的旅游知识抽取任务中的结果如表 1所示,以景点子类特征的预测AUC(area under the curve)作为标准评估,验证该模型能否准确和充分地从文本语料中自动化按照本体获取景点特征三元组。由表 1可知,相较于常用的LDA(latent Dirichlet allocation)模型,基于ERNIE的迁移学习抽取器在知识获取的精度(平均提取AUC)和丰度(所能提取特征数量)上,分别提升了50.7%和670%。该知识抽取器在全部94个子类特征中,仅有中国戏曲的预测AUC不足0.7,其他全部均达到0.85以上水平,证明该方法可以完成自动化、高精度的定制化知识获取任务。本文对中国戏曲子类特征进行负例分析,发现识别错误多为假阴性,即属于中国戏曲但未能识别该特征,原因是具有中国戏曲特征的景点语料样本过于稀疏,训练不充分。对于该特征可采取人工标识方式予以校正。最终所构建的旅游景点知识图谱包括77 039个实体,16种关系类型,10 971 810个三元组,如图 5所示。

      表 1  定制化知识抽取任务表现

      Table 1.  Performance of Knowledge Extraction Task

      模型 最优提取特征 最差提取特征 平均提取AUC 提取特征数量/个
      子类特征 AUC 子类特征 AUC
      定制化知识抽取器 校园 0.983 中国戏曲 0.626 0.895 77
      LDA模型 博物馆 0.721 游览 0.520 0.594 10

      图  5  旅游景点知识图谱

      Figure 5.  Tourist Attraction Knowledge Graph

    • 本文利用所构建的旅游景点知识图谱,开展了旅游客源地市场分析、特征现状与趋势预测、产业配置对比分析实验。

    • 分别统计全国340个地级及以上客源地(城市)的游客输出人次,结果如图 6所示。

      图  6  客源地游客输出量分布

      Figure 6.  Distribution of Tourist Outputs from Different Sources

      图 6可知,游客输出量分布呈现出极强的非均衡性,超一线城市北京、上海和广州,三者输出总和超过全国的1/3,相较于其他客源地,领先多个数量级。空间上,东部沿海地区的客流输出更为集中,远高于中西部地区。

    • 遍历各个景点特征统计得到访游客的满意度与访问频次(见图 7),配合K-means聚类可评估旅游市场现状,预测未来趋势。由图 7可以看出,中国国内旅游市场整体分布呈现“钟形”曲线特征,即评分过高或过低的景点特征,访问量较低,访问量最集中的特征分布于中等满意度区间[3.90,4.05]。K-means聚类形成了3个类簇,分别代表不同的产业发展状态。类簇1反映了低访问量和低满意度的景点特征,说明该类型景点的市场占有率低,游客需求量少,缺乏增长潜力,是亟待转型的产业模式。类簇2对应高访问量和中等满意度,说明该类景点市场占有率最高,但过多重复产品导致了审美疲劳。因此,类簇2中的旅游目的地需巩固先发优势,并基于优质资源,不断创新产品、提升服务质量。类簇3代表了低访问量和高满意度,说明该类景点目前存在供给市场短缺状况,即口碑良好但供应不足,可推断簇3类型的旅游目的地具有很好的发展前景。

      图  7  不同类型的旅游景点的满意度与访问频度

      Figure 7.  Satisfaction and Frequency of Different Tourist Attractions

    • 选取某个城市为对象,将资源禀赋条件最接近该城市且发展水平领先的城市作为参照目标。通过统计分析,对比该城市与参照目标之间的差异,挖掘产业布局的结构性短板,以及明确可驱动发展的增长极。

      以洛阳市为对象城市,在经过匹配和排序后,确定参照目标城市为北京市、西安市、南京市和成都市。洛阳市与4个参照目标城市的旅游产业结构对比如图 8(a)所示(已排除气候因素影响)。洛阳市与参照目标城市均体现出鲜明的历史文化特征,适宜进行游览和拍摄等活动,投射出强烈的人文主义目的地形象。在差异性方面,洛阳市具有优质的佛教文化资源,以及相当规模的佛教景区,可作为产业发展的增长极。参照目标城市与洛阳市的旅游产业各个特征的游客消费比值如图 8(b)所示。洛阳市产业配置短板集中于资源条件和时代特征上,参照目标城市除著名历史景点外,还配套有其他类型的旅游吸引物,如购物中心、现代景观、校园文化等,结构更加完整。因此,洛阳市旅游产业应在历史文化尤其佛教文化基础上,补充现代类消费设施,完善产业布局,向综合性旅游目的地方向发展。

      图  8  旅游目的地景点产业结构对比分析

      Figure 8.  Comparative Analysis of Tourist Destination Industrial Structure

    • 本文针对现有旅游大数据挖掘研究存在的不足,提出了一种基于网络文本的旅游知识图谱构建方法,通过迁移学习将预训练语言模型ERNIE改造为定制化的知识抽取器,从海量UGC文本中获取景点特征知识,并融合其他异构数据,构建了一个系统性的旅游景点知识图谱,以支撑面向旅游管理领域的多重时空分析,为目的地发展规划提供精准的科学依据。本文将预训练语言模型以有监督的迁移学习方式引入旅游管理领域,兼顾了旅游景点相关知识获取的精准完整与知识图谱构建的高效自动化。所构建的旅游景点知识图谱为多源异构旅游时空数据的集成化处理提供了新思路,以可扩展的知识三元组,自然理解和准确表达复杂多变的旅游场景,并借助图数据库管理系统,支撑旅游管理业务的决策支持。

      未来研究工作将围绕两个方向开展,一是构建更加丰富的地理知识图谱,将该研究框架应用于更多的地理场景中,检验该框架的可泛化性;二是结合图神经网络、知识图谱嵌入表示等模型,进一步开展基于知识图谱的计算与推理研究,力争在更多复杂性决策任务上实现新突破。

参考文献 (29)

目录

    /

    返回文章
    返回