留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于BERT迁移学习模型的地震灾害社交媒体信息分类研究

林森 刘蓓蓓 李建文 刘旭 秦昆 郭桂祯

林森, 刘蓓蓓, 李建文, 刘旭, 秦昆, 郭桂祯. 基于BERT迁移学习模型的地震灾害社交媒体信息分类研究[J]. 武汉大学学报 ● 信息科学版. doi: 10.13203/j.whugis20220167
引用本文: 林森, 刘蓓蓓, 李建文, 刘旭, 秦昆, 郭桂祯. 基于BERT迁移学习模型的地震灾害社交媒体信息分类研究[J]. 武汉大学学报 ● 信息科学版. doi: 10.13203/j.whugis20220167
LIN Sen, LIU Beibei, LI Jianwen, LIU Xu, QIN Kun, GUO Guizhen. Social media information classification of earthquake disasters based on BERT transfer learning model[J]. Geomatics and Information Science of Wuhan University. doi: 10.13203/j.whugis20220167
Citation: LIN Sen, LIU Beibei, LI Jianwen, LIU Xu, QIN Kun, GUO Guizhen. Social media information classification of earthquake disasters based on BERT transfer learning model[J]. Geomatics and Information Science of Wuhan University. doi: 10.13203/j.whugis20220167

基于BERT迁移学习模型的地震灾害社交媒体信息分类研究

doi: 10.13203/j.whugis20220167
基金项目: 

国家重点研发计划(2018YFC1508806)。

详细信息
    作者简介:

    林森,博士,助理研究员,主要研究方向为灾害监测评估预警、灾害大数据挖掘。linsen_ndrcc@126.com

  • 中图分类号: TN967.1

Social media information classification of earthquake disasters based on BERT transfer learning model

Funds: 

The National Key Research & Development Program of China (2018YFC1508806).

  • 摘要: 社交媒体数据具有现势性高、传播快、信息丰富、成本低、数据量大等优点,已经成为分析突发灾害事件的重要信息源。但是,社交媒体数据也存在质量各异、冗余而又不完整、覆盖不均匀、缺少统一规范、隐私与安全难以控制等缺点。为了能够利用社交媒体数据为灾害应急响应提供精准化依据,迫切需要提出能够甄别社交媒体内容并进行有效分类的先进技术。针对此问题,本文提出利用基于变换器的双向编码表征模型(Bidirectional Encoder Representation From Transformers,BERT)的迁移学习方法,面向灾后应急需求,利用基于海量语料库的预训练模型,对地震灾害事件后“黄金”72小时内的微博数据进行多标签文本分类,将其划分为致灾信息、损失信息、救援救助信息、舆情信息、无用信息5种类型,提取出可用于灾情分析的精细化信息。本文模型在训练集和测试集上的分类准确率分别达97%和92%,有效提升了微博文本数据的分类精度。评估结果表明:该模型能很好地提取社交媒体中地震灾害信息,可应用于地震灾害事件的快速灾情研判,弥补传统信息获取手段的滞后性。
  • [1] Velev D, Zlateva P. Use of Social Media in Natural Disaster Management[C]. International Economics Development and Research Center(IEDRC), Hong Kong, China, 2012
    [2] Goodchild M F. Citizens as sensors:the world of volunteered geography[J]. GeoJournal, 2007, 69(4):211-221
    [3] Schade S, Diaz L, Ostermann F O, et al. Citizen-based sensing of crisis events:sensor web enablement for volunteered geographic information[J]. Applied geomatics, 2013, 5(1):3-18
    [4] Goodchild M F, Glennon J A. Crowdsourcing geographic information for disaster response:a research frontier[J]. International Journal of Digital Earth, 2010, 3(3):231-241.
    [5] Heinzelman J, Waters C. Crowdsourcing Crisis Information in Disaster[R]. United States Institute of Peace, 2010
    [6] Zhang C, Fan C, Yao W L, et al. Social media for intelligent public information and warning in disasters:An interdisciplinary review[J]. International Journal of Information Management, 2019, 49:190-207
    [7] Qu Y, Huang C, Zhang P, et al. Microblogging after a major disaster in China:a case study of the 2010 Yushu earthquake[C]. Proceedings of the ACM 2011 conference on Computer supported cooperative work, Hong Kong, China, 2011
    [8] Imran M, Elbassuoni S, Castillo C, et al. Practical extraction of disaster-relevant information from social media[C]. World Wide Web, Social Web for Disaster Management (SWDM), Rio de Janeiro, Brazil, 2013.
    [9] Takahashi B, Tandoc EC, Carmichael C. Communicating on Twitter during a disaster:An analysis of tweets during Typhoon Haiyan in the Philippines[J]. Computers in Human Behavior. 2015, 50:392-398
    [10] Chakrabarti S, Roy S, Soundalgekar MV. Fast and accurate text classification via multiple linear discriminant projections[J]. The VLDB Journal, 2003, 12(2):170-185
    [11] Nguyen D T, Joty S R, Imran M, et al. Applications of Online Deep Learning for Crisis Response Using Social Media Information[J]. arXiv:1610.01030, 2016
    [12] Devlin J, Chang M W, Lee K, et al. BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. arXiv:1810.04805, 2018
    [13] Peters M, Neumann M, Iyyer M, et al. Deep Contextualized Word Representations[J]. arXiv:1802.05365, 2018
    [14] Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[EB/OL].[2022-01-05].https://cdn.openai.com/research-covers/language-unsuperv ised/language_understanding_paper.pdf
    [15] Heidari M, Jones J H. Using BERT to Extract Topic-Independent Sentiment Features for Social Media Bot Detection[C]. 202011th IEEE Annual Ubiquitous Computing, Electronics & Mobile Communication Conference (UEMCON), New York, USA, 2020
    [16] Mozafari M, Farahbakhsh R, Crespi N. A BERT-based transfer learning approach for hate speech detection in online social media[J]. arXiv:1910.12574, 2019
    [17] Jain P, Ross R, Schoen-Phelan B. Estimating Distributed Representation Performance in Disaster-Related Social Media Classification[C]. IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM), Vancouver, Canada, 2019.
    [18] Zahera H M. Fine-tuned BERT Model for Multi-Label Tweets Classification[C]. Text REtrieval Conference (TREC), 2019
    [19] Liang C, Yu Y, Jiang H, et al. BOND:BERT-Assisted Open-Domain Named Entity Recognition with Distant Supervision[C]. KDD'20:Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, Virtual Event, USA, 2020
    [20] Souza F, Nogueira R, Lotufo R. Portuguese Named Entity Recognition using BERT-CRF[J]. arXiv:1909.10649, 2019
    [21] Wang Z, Ng P, Ma X, et al. Multi-passage BERT:A Globally Normalized BERT Model for Open-domain Question Answering[J]. arXiv:1908.08167, 2019
    [22] Wei Y, Xie Y, Lin A, et al. End-to-End Open-Domain Question Answering with BERTserini[J]. arXiv:1902.01718, 2019
    [23] Tsoumakas G, Katakis I, Vlahavas I. Mining Multi-label Data[M]. Data Mining and Knowledge Discovery Handbook, 2009
  • [1] 林学楷, 许才军.  深度学习驱动的地震目录构建:PhaseNet和EqT模型的对比与评估 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20220197
    [2] 覃星力, 杨杰, 李平湘, 赵伶俐, 孙开敏.  迁移学习用于多时相极化SAR影像的水体提取 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20200121
    [3] 高嘉良, 陆锋, 彭澎, 徐阳.  基于网络文本迁移学习的旅游知识图谱构建 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20220120
    [4] 方志祥, 倪雅倩, 黄守倩.  融合Markov与多类机器学习模型的个体出行位置预测模型 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20190404
    [5] 焦麟, 邢帅, 王丹菂, 卢万杰, 张鑫磊, 赵英豪.  面向生物危害应急响应的地理本体模型设计与构建 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20190189
    [6] 江锦成.  面向重大突发灾害事故的应急疏散研究综述 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20200522
    [7] 眭海刚, 赵博飞, 徐川, 周明婷, 杜卓童, 刘俊怡.  多模态序列遥感影像的洪涝灾害应急信息快速提取 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20210465
    [8] 王飞, 姜文宇, 刘彬彬, 郑晓翠, 房龄航.  利用灾害链规则的灾害模型服务链编制方法 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20200130
    [9] 祝会忠, 李军, 徐爱功, 甄杰, 雷啸挺.  灾害应急环境下智能终端高精度北斗增强定位方法 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20200123
    [10] 杜清运, 王煜淼, 刘纪平, 李爱勤, 任福, 刘涛, 严涵.  面向灾害应急服务的自适应制图技术 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20200138
    [11] 杜志强, 李钰, 张叶廷, 谭玉琪, 赵文豪.  自然灾害应急知识图谱构建方法研究 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20200047
    [12] 眭海刚, 刘超贤, 刘俊怡, 郑晓翠, 李海峰, 于树海, 李器宇.  典型自然灾害遥感快速应急响应的思考与实践 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20200065
    [13] 龚丽芳, 李爱勤, 陈张建, 胡冯伟, 杜清运, 侯宛玥.  地质灾害应急制图模型研究 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20200140
    [14] 陈鹏, 汪本康, 高飒, 童小华, 卢文胜, 徐胜华.  利用ResNet进行建筑物倒塌评估 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20200135
    [15] 王艳东, 李萌萌, 付小康, 邵世维, 刘辉.  基于社交媒体共词网络的灾情发展态势探测方法 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20190054
    [16] 王艳东, 付小康, 李萌萌.  一种基于共词网络的社交媒体数据主题挖掘方法 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20180225
    [17] 王艳东, 荆彤, 姜伟, 王腾, 付小康.  利用社交媒体数据模拟城市空气质量趋势面 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20150401
    [18] 王艳东, 李昊, 王腾, 朱建奇.  基于社交媒体的突发事件应急信息挖掘与分析 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20140804
    [19] 温奇, 夏列钢, 李苓苓, 吴玮.  面向灾害应急土地覆被分类的样本自动选择方法研究 . 武汉大学学报 ● 信息科学版,
    [20] 林安琪, 吴浩, 韩磊, 岑鲁豫.  面向非洲猪瘟疫情的社交媒体信息提取与舆情挖掘 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20210406
  • 加载中
计量
  • 文章访问数:  132
  • HTML全文浏览量:  19
  • PDF下载量:  14
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-03-28
  • 网络出版日期:  2022-09-06

基于BERT迁移学习模型的地震灾害社交媒体信息分类研究

doi: 10.13203/j.whugis20220167
    基金项目:

    国家重点研发计划(2018YFC1508806)。

    作者简介:

    林森,博士,助理研究员,主要研究方向为灾害监测评估预警、灾害大数据挖掘。linsen_ndrcc@126.com

  • 中图分类号: TN967.1

摘要: 社交媒体数据具有现势性高、传播快、信息丰富、成本低、数据量大等优点,已经成为分析突发灾害事件的重要信息源。但是,社交媒体数据也存在质量各异、冗余而又不完整、覆盖不均匀、缺少统一规范、隐私与安全难以控制等缺点。为了能够利用社交媒体数据为灾害应急响应提供精准化依据,迫切需要提出能够甄别社交媒体内容并进行有效分类的先进技术。针对此问题,本文提出利用基于变换器的双向编码表征模型(Bidirectional Encoder Representation From Transformers,BERT)的迁移学习方法,面向灾后应急需求,利用基于海量语料库的预训练模型,对地震灾害事件后“黄金”72小时内的微博数据进行多标签文本分类,将其划分为致灾信息、损失信息、救援救助信息、舆情信息、无用信息5种类型,提取出可用于灾情分析的精细化信息。本文模型在训练集和测试集上的分类准确率分别达97%和92%,有效提升了微博文本数据的分类精度。评估结果表明:该模型能很好地提取社交媒体中地震灾害信息,可应用于地震灾害事件的快速灾情研判,弥补传统信息获取手段的滞后性。

English Abstract

林森, 刘蓓蓓, 李建文, 刘旭, 秦昆, 郭桂祯. 基于BERT迁移学习模型的地震灾害社交媒体信息分类研究[J]. 武汉大学学报 ● 信息科学版. doi: 10.13203/j.whugis20220167
引用本文: 林森, 刘蓓蓓, 李建文, 刘旭, 秦昆, 郭桂祯. 基于BERT迁移学习模型的地震灾害社交媒体信息分类研究[J]. 武汉大学学报 ● 信息科学版. doi: 10.13203/j.whugis20220167
LIN Sen, LIU Beibei, LI Jianwen, LIU Xu, QIN Kun, GUO Guizhen. Social media information classification of earthquake disasters based on BERT transfer learning model[J]. Geomatics and Information Science of Wuhan University. doi: 10.13203/j.whugis20220167
Citation: LIN Sen, LIU Beibei, LI Jianwen, LIU Xu, QIN Kun, GUO Guizhen. Social media information classification of earthquake disasters based on BERT transfer learning model[J]. Geomatics and Information Science of Wuhan University. doi: 10.13203/j.whugis20220167
参考文献 (23)

目录

    /

    返回文章
    返回