留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

文本大数据中地震应急的知识发现方法

刘涛 张晓辉 杜萍 杜清运 李爱勤 龚丽芳

刘涛, 张晓辉, 杜萍, 杜清运, 李爱勤, 龚丽芳. 文本大数据中地震应急的知识发现方法[J]. 武汉大学学报 ● 信息科学版, 2020, 45(8): 1205-1213. doi: 10.13203/j.whugis20200106
引用本文: 刘涛, 张晓辉, 杜萍, 杜清运, 李爱勤, 龚丽芳. 文本大数据中地震应急的知识发现方法[J]. 武汉大学学报 ● 信息科学版, 2020, 45(8): 1205-1213. doi: 10.13203/j.whugis20200106
LIU Tao, ZHANG Xiaohui, DU Ping, DU Qingyun, LI Aiqin, GONG Lifang. Knowledge Discovery Method from Text Big Data for Earthquake Emergency[J]. Geomatics and Information Science of Wuhan University, 2020, 45(8): 1205-1213. doi: 10.13203/j.whugis20200106
Citation: LIU Tao, ZHANG Xiaohui, DU Ping, DU Qingyun, LI Aiqin, GONG Lifang. Knowledge Discovery Method from Text Big Data for Earthquake Emergency[J]. Geomatics and Information Science of Wuhan University, 2020, 45(8): 1205-1213. doi: 10.13203/j.whugis20200106

文本大数据中地震应急的知识发现方法

doi: 10.13203/j.whugis20200106
基金项目: 

国家重点研发计划 2016YFC0803106

国家自然科学基金 41761088

兰州交通大学优秀平台 201806

详细信息
    作者简介:

    刘涛,博士,教授, 主要从事空间关系、时空大数据处理等研究。ltaochina@foxmail.com

  • 中图分类号: P208

Knowledge Discovery Method from Text Big Data for Earthquake Emergency

Funds: 

The National Key Research and Development Program of China 2016YFC0803106

the National Natural Science Foundation of China 41761088

LZJTU EP 201806

More Information
    Author Bio:

    LIU Tao, PhD, professor, specializes in spatial relations, spatial-temporal big data handling.ltaochina@foxmail.com

图(7) / 表(1)
计量
  • 文章访问数:  517
  • HTML全文浏览量:  156
  • PDF下载量:  98
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-03-01
  • 刊出日期:  2020-08-05

文本大数据中地震应急的知识发现方法

doi: 10.13203/j.whugis20200106
    基金项目:

    国家重点研发计划 2016YFC0803106

    国家自然科学基金 41761088

    兰州交通大学优秀平台 201806

    作者简介:

    刘涛,博士,教授, 主要从事空间关系、时空大数据处理等研究。ltaochina@foxmail.com

  • 中图分类号: P208

摘要: 构建地震应急的知识发现模型是地震应急知识领域的核心科学问题之一,如何在种类繁多、内容繁杂的数据中,研究减少先验知识依赖和支持的地震应急知识发现至关重要。提出了一种文本大数据中地震应急的知识发现模型。首先,收集与地震应急相关的学术文献数据集和社交媒体数据集;然后,利用CiteSpace分析工具及形式概念分析方法提取高频关键词及其关联关系,以词频联系作为它们之间关系的强度,并构建地震应急知识的复杂网络,以对网络进行社区划分研究,实现地震应急的知识发现。实验结果表明,该模型能够发现地震应急的相关知识,特别是能够发现领域专家关注较少的知识点,为地震应急提供知识决策支持。

English Abstract

刘涛, 张晓辉, 杜萍, 杜清运, 李爱勤, 龚丽芳. 文本大数据中地震应急的知识发现方法[J]. 武汉大学学报 ● 信息科学版, 2020, 45(8): 1205-1213. doi: 10.13203/j.whugis20200106
引用本文: 刘涛, 张晓辉, 杜萍, 杜清运, 李爱勤, 龚丽芳. 文本大数据中地震应急的知识发现方法[J]. 武汉大学学报 ● 信息科学版, 2020, 45(8): 1205-1213. doi: 10.13203/j.whugis20200106
LIU Tao, ZHANG Xiaohui, DU Ping, DU Qingyun, LI Aiqin, GONG Lifang. Knowledge Discovery Method from Text Big Data for Earthquake Emergency[J]. Geomatics and Information Science of Wuhan University, 2020, 45(8): 1205-1213. doi: 10.13203/j.whugis20200106
Citation: LIU Tao, ZHANG Xiaohui, DU Ping, DU Qingyun, LI Aiqin, GONG Lifang. Knowledge Discovery Method from Text Big Data for Earthquake Emergency[J]. Geomatics and Information Science of Wuhan University, 2020, 45(8): 1205-1213. doi: 10.13203/j.whugis20200106
  • 地震是对人类社会影响较大的一种自然灾害,地震应急救援工作是灾后减少人员伤亡及经济损失的主要途径[1]。地震应急响应的动态过程决定了应急管理体系是一个开放的复杂巨系统,具有多主体、多因素、多尺度、多变性的特征[2]。充足、准确、及时的灾害信息,对于灾害应急具有重要意义[3]

    高效地发现新颖、可用的知识是人类知识活动的主要目标[4],地震应急是应对地震的紧急情况、应付地震的迫切需要[5],相关知识能为应急行动实施提供有效管理和决策保障。而地震等突发事件往往伴随着大量相关信息涌现,突发事件大数据虽然丰富了相关信息类型和规模,却造成了应急决策的信息利用障碍[6]。如何在繁杂的地震应急信息中发现所需的应急知识,是地震应急领域迫切需要解决的问题。大数据时代,海量网络文本中蕴含的灾害事件信息是防灾减灾研究和应用的重要资源[7]。从海量文本数据中快速、准确地抽取灾害事件属性信息,分析并进行可视化表达,是当前灾害信息领域关注的热点。

    知识发现是从数据集中识别出有效、新颖、潜在有用以及最终可理解的模式的非平凡过程[8]。早期知识发现主要以研究算法为主,目标是解决海量数据和信息的处理与挖掘问题。但是知识发现的实质是一个综合的知识活动和知识生产的过程,涉及规律、策略和技术的集成,以及多学科和领域之间的相互渗透,孤立的算法和技术研究难以形成有效的应用,因此研究重点逐渐趋向于基于领域服务、面向智能决策的综合应用研究[9]。本文重点研究地震应急领域的知识发现方法,属于灾害应急领域。目前,灾害应急领域的知识发现可以概括为统计学方法[10]、机器学习方法[11-12]、神经计算方法[13]和可视化分析方法[14-16]等几种主要方法。

    统计学方法主要依靠有限的历史案例知识,而机器学习方法与神经计算方法则需要专家先验知识作为支撑,可视化分析方法更多的是辅助知识表现,直接作为知识发现的手段则略显单一。本文试图从新的角度出发,以文本大数据为基础,探索地震应急领域的知识发现方法,分析数据来源不同的地震应急知识的特征。该方法不再依赖于有限的历史案例或领域专家的先验知识,可智能通用地提取出地震应急领域的核心知识,并以可视化的手段进行知识表达。

    • 文本数据中地震灾害应急知识发现的总体技术路线如图 1所示。首先,通过中国知识基础设施工程(China national knowledge infrastructure,CNKI)及新浪微博(Weibo)获取地震应急相关文本数据;其次,通过数据过滤及关键词提取获取地震应急知识的关键词;然后,分别利用夹角余弦距离及形式概念分析对CNKI数据及微博数据的关键词构建关联关系,将关键词作为节点、词与词之间的关联关系作为边,构建CNKI与微博关键词的复杂网络;最后,利用社区划分算法对网络进行划分,并通过评估划分结果提取出可靠社区进行地震应急的知识发现。

      图  1  地震应急的知识发现流程

      Figure 1.  Knowledge Discovery Process for Earthquake Emergency

    • 对获取的CNKI数据进行去重,删除其中的新闻报道、会议通知等噪声信息,仅保留地震应急相关条目。对微博数据中仅含表情、推销信息、抽奖信息等噪声数据条目进行删除, 以此保障输入数据的科学合理性。

    • CiteSpace是一款多元、分时、动态的引文可视化分析工具,主要用于分析科学文献中蕴含的潜在知识[17],可针对科研文献提取出关键词及关键词之间的关联关系。本文采集的CNKI数据集具有标准的科研文献数据格式,其中摘要、关键词等核心信息标注清晰。

      本文主要研究地震应急知识而非学术文献被引关系,因此仅需提取出关键词中的高频部分,而且学术文献中关键词所在位置对关键词权重并无影响,故采用词频-逆向文件频率(term frequency inverse document frequency,TF-IDF)算法进行提取是一种较为适宜的选择。而微博数据主要是普通公众产生的博文信息,口语化较为严重,需要进行分词后才能进行关键词提取,且不同位置的微博关键词应具有不同的权重,因此不适宜采用TF-IDF算法进行提取,可采用自然语言处理与信息检索(natural language processing and information retrieval,NLPIR)分词系统在分词的同时提取关键词。

      关键词之间的关联关系反映了知识之间的关联关系,根据TF-IDF提取的CNKI关键词口语化程度较低,适宜进行基于共现强度的关联关系的建立,且CiteSpace提取的关键词具有基础共现矩阵, 便于进行共现强度计算。而微博数据中博文数量众多且高度口语化,导致关键词共现矩阵效果较差,故选用可挖掘模糊关联关系的形式概念分析进行关联关系的建立。

      利用TF-IDF计算词条特征值的权重,从而提取出CNKI关键词[16],计算公式为:

      $$ {F_{i, j}} = \frac{{{x_{i, j}}}}{{\mathop \sum \nolimits_k {x_{k, j}}}} \times \lg \frac{{|w|}}{{1 + |\left\{ {j:{z_i} \in {w_j}} \right\}|}} $$ (1)

      式中,xi, j是词条在文档wj中出现的频次;${\mathop \sum \limits_k {x_{k, j}}}$是文档wj中所有词条的频次总和;|W|是实验数据集中文档数总和;${|\left\{ {j:{z_i} \in {w_j}} \right\}|}$是包含Zi词条的文档总数;Fi, j为词条特征值的权重。

      提取出关键词后利用词频共现矩阵来构建学术文献数据集关键词之间的关联关系。判断所提取任意两个关键词在同篇文献中是否存在共现关系,同时统计共现次数,利用夹角余弦距离计算关键词共现强度[17],构建词频共现矩阵,计算公式为:

      $$ \cos {\rm{}}\left( {C, K} \right) = \frac{{\left| {C \cap K} \right|}}{{\sqrt {\left| C \right|\left| K \right|} }} $$ (2)

      式中,|C|、|K|为两关键词各自出现的总频次;${\left| {C \cap K} \right|}$为两关键词的共现频次;两关键词的余弦距离cos(C, K)取值范围为[0, 1],值越大,关键词共现强度越大。

    • 由于微博数据的特性,且NLPIR提取的微博关键词之间不包含关联关系,因此对微博关键词进一步进行形式概念分析,以获取关键词之间的关联关系。

      形式概念分析是一种在序理论基础上发展而来的格理论的分支,可将概念之间的泛化与例化关系以概念格中对象与属性的映射关系进行体现。对所提取关键词构建形式背景E=(O, A, R), 其中O是对象集合,即微博关键词ID(identification),A是属性集合,即微博关键词属性,R代表OA之间的二元关系,则存在一个偏序集与之对应,且此偏序集可产生对应概念格。

      在形式背景E=(O, A, R)上,若存在微博关键词属性集A1A2AA1A2表示“若存在关键词对象需要用关键词属性A1描述,则描述此对象也一定需要关键词属性A2”。蕴含关系A1A2在形式背景E上成立,当且仅当A2A1,并且A1XA2X自动对E的所有内涵XA都成立,可称在形式背景EA1A2的前提。由此可进行属性之间蕴含关联关系推导,从而得到微博关键词的关联关系。

    • 用提取的关键词构建地震应急知识复杂网络,其中每个节点代表一个地震应急关键词,节点间的边由关键词之间的关联关系组成。连接每个节点的边数称为节点度,所有节点度的平均值称为网络平均度,可反映复杂网络的复杂度。本文中的复杂网络具有边比节点多的特征,适宜采用针对较多边的Louvain划分算法。该算法是一种基于模块度指标Q的社区发现算法[18],它的核心思想是最大化整个网络的模块度,其算法步骤如下:

      1)网络中每个节点都作为一个单独社区;

      2)对于每个节点i,遍历节点i的所有邻居节点,依次计算把该节点加入其邻居节点所在社区的模块度收益,选择最大收益的邻居节点,加入其所在社区,若收益减少或不变,节点仍停留于原始社区;

      3)重复上述步骤,直至所有节点不再移动;

      4)对步骤2)、3)形成的社区进行压缩,将所有在同一个社区的节点压缩为一个新节点,社区内节点的权重变为新节点的环的权重,社区间边的权重变为新节点间边的权重;

      5)重复步骤1)、2),直至整个网络社区模块度不变。

    • 模块度指标Q是文献[19]提出的衡量复杂网络社区划分好坏的评价标准,它的核心思想是复杂网络划分出的子网络结构与该网络中节点随机构成的网络结构差异越大越好,计算公式为:

      $$ Q = \frac{1}{{2s}}\sum\limits_{_{m, n}} {\left[ {{Z_{m, n}} - \frac{{{H_m}{H_n}}}{{2s}}} \right]\delta \left( {{B_m}, {B_n}} \right)} $$ (3)

      式中,HmHn分别代表复杂网络中节点mn的度;BmBn分别代表节点mn所在的社区;s代表复杂网络所包含的总边数;Zm, n代表节点mn的权值;函数${\delta \left( {{B_m},{B_n}} \right)}$代表节点mn是否属于同一个社区结构。当mn属于同一个社区时,即当Bm=Bn时,则$\delta \left( {{B_m}, {B_n}} \right) = 1$;否则,$\delta \left( {{B_m}, {B_n}} \right) = 0$。当模块度的值大于0.3时,复杂网络中开始出现较为明显的社区结构,模块度的值越接近1,表明该网络所划分的社区质量越好。因此,本文选取模块度指标Q作为相关知识网络社区划分质量的评价标准。模块度Q越大,表明社区划分效果越好,Q值的范围为[-0.5, 1)。当Q值在0.3~0.7之间时,表明聚类的效果较好。

    • 在得到社区划分结果后,对可靠社区的关键词进行基于复杂网络的分析。由于每个社区都是复杂网络的子网络,因此可利用节点相关性、网络聚集性等对关键词蕴含的知识进行梳理归纳,进而实现知识发现的目的。

    • 文本是网络信息最为普遍的表现形式,也是其他信息分析的基础。本文研究从文本大数据中发现地震应急的相关知识。鉴于专业领域人士和公众对地震应急的关注重点不同,由此所发现的地震应急知识也会有所不同,因此选取数据来源主要分为学术文献CNKI数据集和社交媒体新浪微博数据集,分别代表专业领域和公众领域。

      1)学术文献数据集。CNKI是以实现中国全社会知识资源传播共享与增值利用为目标的信息化建设项目,主要收录以中文为主的学术文献,可以涵盖地震应急领域内专家学者研究关注的知识内容,便于从科学研究的角度发现地震应急相关知识,为整个地震应急过程提供知识决策支持。CNKI数据主要采用“高级检索”功能,以主题=“‘地震’并含‘应急’,或‘震灾’并含‘应急’”为检索式检索出相关论文8 111篇。对其中部分无效文献和报纸杂志等进行过滤去除,最终得到7 921篇质量较好的文献作为实验数据。利用CiteSpace工具直接进行提取,得到1 533个关键词。

      2)社交媒体数据集。新浪微博是目前较为主流的社交媒体平台,任何用户都可以创作和发布微博,并附加多媒体或长博文内容。选用微博数据集可以获取部分地震应急相关的社交媒体信息,便于从公众关注的角度发现地震应急相关知识。同时,由于微博数据的即时性与地震事件的突发性,从微博数据发现的地震应急知识能快速为紧急应急救援提供帮助。微博数据来源广泛,噪声较大,需要进行预处理。本文选取已去噪的雅安地震科学数据集作为实验数据,共51 418条微博,对微博数据使用NLPIR分词系统进行关键词提取。获取的微博数据包含四川省21个城市的微博数据,每个城市分别提取关键词(50个),最后对1 050个关键词进行去重降噪,得到81个独立关键词。

    • 利用关键词作为节点,关键词之间的关联关系作为边,构建出关键词复杂网络。图 2(a)包含1 533个节点、6 935条边,平均度为9.048;图 2(b)包含81个节点、718条边,平均度为8.864。

      图  2  地震应急关键词复杂网络

      Figure 2.  Complex Network of Keywords for Earthquake Emergency Response

    • 图 3所示,CNKI数据经过社区划分得到108个社区,模块度为0.533,证明聚类效果较好。根据社区节点所占百分比对社区进行筛选,选出其中最主要的16个大型社区,涵盖总节点数的90.76%,可认为其涵盖90%以上的地震应急知识。需要说明的是,知识发现并不意味着发现的知识均为未曾出现的新知识,更多的是对现有知识隐含关联关系的发现及现有知识跨学科专业的组合、关注要点的发现[8]

      图  3  CNKI社区划分结果

      Figure 3.  Community Division Results of CNKI

      CNKI中地震应急知识主要集中在16个大的领域,按照占总社区节点数的比例从高到低排列如表 1所示。同时在第一次划分社区的结果上,对每个社区进一步划分为5个社区,并提取每个社区具有代表性的关键词,如表 1所示。各社区内部的关键词表示在该社区内这些关键词相互联系较为紧密。这16个大型社区及其关键词基本涵盖了领域专家关注的主要问题。

      表 1  CNKI社区关键词表

      Table 1.  Keywords of CNKI Community

      社区 关键词
      60 地震工程、地震响应、抗震设计、结构易损性、GIS
      57 应急响应、抗震救灾指挥部、中国地震局、医疗救援、救援队伍
      77 次生灾害、地质灾害、汶川地震、遥感、地震烈度
      69 灾害对策、易损性分析、震害预测、灾害评估、统计分析
      65 灾情、灾害损失、直接经济损失、民政部、国家减灾委
      62 应急避难场所、活断层、生态损失、地震地质、地震基本参数
      21 防震减灾宣传、日本、无人机、震害防御、应急创新
      73 地震灾害保险、地震专题图、灾后重建、灾民难民、地震保险
      85 地震社会学、防灾减灾、应急管理、灾害救助、灾害风险
      99 应急指挥、应急物资、GIS、应急通信、灾区捐款
      23 国务院、抢险救灾、灾害社会工作、城市生命线、灾后恢复重建
      55 防灾规划、灾害应对、地震次生灾害、抗震加固、地震灾害评估
      74 建筑物、震害特征、恢复重建、震害评估、震害调查
      1 次生地质灾害、地震烈度、历史地震、遥感解译、地质灾害
      6 灾害社会学、防灾减灾、应急管理、灾害救助、灾害风险
      104 卫星通信、应急物资、地震应急指挥系统、应急通信、灾区捐款

      社区占比越大,表明知识点越多。因此选取占比前3的大型社区(即社区60、社区57和社区77)为代表进行详细分析。

      社区60节点数占总社区节点数的11.29%,是最大的社区,主要聚焦内容为抗震设计,占社区60节点的71.66%,因此着重分析抗震设计相关知识。

      图 4所示是社区60的划分结果,其中抗震设计涵盖10个子社区, 分析可以发现:(1)主要关注在地震作用下建筑设计中的建筑结构整体稳定性和建筑材料的空间刚度;在抗震设计规范的基础下进行工业与民用建筑的结构设计、评估其抗震能力,对公共财政和学校建筑进行构造设计研究;高层建筑必须考虑地震易损性,其抗震性能由地震破坏机制、建筑材料及建筑结构决定,在抗震设计中,重点关注楼梯间的设计,高层建筑发生地震时,楼梯间是唯一的逃生通道,同时楼梯间的填充墙是否符合抗震规范尤为重要。(2)研究震后砌体结构中钢筋混凝土结构框架的破坏特征对鉴定与加固建筑具有重要意义;土木工程防御震害的构造柱结构,目前主要为圈梁及强柱弱梁结构,同时房屋建筑的钢结构的抗震性和安全性也不可忽视;除了房屋建筑,桥梁设计的砖木结构和其材料的振动台实验及上部结构的隔震设计也是关注焦点。(3)利用强震记录、地震区划图、地震动参数来进行地震抗震设计的风险防范,以及在灾害损失评估、救援医学、公共卫生信息下建立地震应急监测设施。对目前抗震设计中存在的问题进行反思,如何预防地震灾害并有效为灾后应急救援提供帮助是抗震设计未来的核心目标。

      图  4  社区60划分结果

      Figure 4.  Division Results of Community 60

      分析网络节点的分布特征并与现有抗震设计知识领域进行对比,发现知识分布大部分与目前抗震设计的知识领域一致,说明该社区相关关键词领域及相互之间交叉研究较为充分。

      社区57节点数占总社区节点数的9.59%,主要聚焦内容为中国地震局(图 5(a))和救援队伍(图 5(b)),分别占社区57节点的32.65%及27.21%。

      图  5  社区57划分结果

      Figure 5.  Division Results of Community 57

      图 5(a)中,中国地震局涵盖7个子社区,分析可以发现:(1)中国地震局对地震现场的震情通过新媒体提供信息服务,为应急指挥部在抗震救灾中应提供地震台阵监测下的强余震信息,以确保救援安全。地震应急的应急体系工作进程的推进需要借助数字城市等新技术手段,同时应对舆论进行引导,应急新闻宣传中心需及时、准确地进行信息的发布公开。(2)根据地震灾情启用的地震应急响应应着重注意其决策支持系统的研究,地震监测中信息系统预警后要采取紧急处理措施,在交通应急方面应着重关注高速公路与铁路的紧急处置。因地震造成的爆炸事故,其应急工作和应急机制与传统爆炸事故应急有所不同。(3)地震应急预案、监测预报、地震安全性决定了建设工程抗震设防的规范,需对不同等级的应急预案进行对应的科学普及教育,增大预案效用。

      图 5(b)中,救援队伍涵盖5个子社区, 分析可以发现:(1)国内应急救援的机制仍需进一步优化,目前救援行动的主导力量是人民军队。在国际上,则是城市搜索与救援协调中心(Urban Search and Rescue Coordination Cell,UCC)主导的救援队伍在联合国的搜救行动中发挥着重要作用。中国国际救援队活跃于南亚、加德满都等区域的地震灾区,对灾区进行灾害评估及应急救援。(2)灾害评估趋向于多尺度的快速评估,主要聚焦于生命损失及财产损失,同时生态损失也被纳入考量重点。目前,社交媒体在生命损失、财产损失的快速评估中起着非常重要的作用。(3)地震救援队伍的辅助决策系统非常关键,能够在对灾区空间网格化的同时进行空间分析的GIS技术是现在和未来需要重点发展的技术。在地震紧急搜救行动中,北斗系统的定位导航功能发挥了重要作用。

      与现有中国地震局及救援队伍相关知识领域进行对比,发现研究者关注较少的知识点为:地震应急中,中国地震局不仅有提供应急信息服务的责任,更有引导灾害舆论的责任,正确、快速传递灾情信息;应急预案应不仅停留在制定实施上,也应加大科普力度,从公民认知层面提高预案效用;救援队伍的机制可进一步借鉴UCC等模式的优点进行完善,可利用社交媒体数据辅助进行灾害损失快速评估。

      社区77节点数占总社区节点数的9.52%,主要聚焦内容为遥感和地质灾害,分别占社区77节点的26.9%及22.76%。

      图 6(a)中,遥感涵盖5个子社区,分析可以发现:(1)防治地震诱发的地质灾害,大量运用遥感技术对震区进行危险性评价,避免堰塞湖等次生灾害;震后山地灾害主要是滑坡,需重点分析安置点、公路是否处于滑坡危险之下,探究滑坡分布规律。震后的重建规划在考虑空间布局的情况下应着重分析地震构造带的分布以及强震可能引发的滑坡灾害。(2)应急测绘在应急保障体系中占有重要地位,如利用遥感技术对高分辨率影像进行滑坡信息提取,利用无人机影像进行灾区危险性判别,利用遥感技术对水电工程震后诱发地质灾害进行判别,同时在次生灾害防治中识别特定区域次生害灾害形成条件。

      图  6  社区77划分结果

      Figure 6.  Division Results of Community 77

      图 6(b)中,地质灾害涵盖6个子社区,分析可以发现:(1)地质灾害需要水文、工程、环境地质调查专业进行防治措施的研究,同时应根据断裂带分布特征及不同区划下不同类型的灾害进行相应的风险控制,根据灾害特征制定城镇防治对策,如南水北调下的工程地质灾害及对策。(2)在分析地质灾害时,要结合档案馆内历史档案综合分析,着重关注震灾后可诱发滑坡和崩塌的关键因子的空间分布,保证地质安全的一个方法是快速进行植被恢复。

      与现有遥感及地质灾害相关知识领域对比,可发现研究者关注较少的知识点为:加强对水电工程等大型土木工程在震后诱发地质灾害的判别,及地质灾害区域植被的快速恢复研究。

      微博数据可划分为如图 7所示的5个社区。

      图  7  微博社区划分结果

      Figure 7.  Community Division Results of Weibo

      1)分析社区1(图 7(a))可以发现,“不要睡懒觉”与“不要睡午觉”相关度最高。主要原因是社交媒体信息较为生活化,雅安地震发生在北京时间2013-04-20T08:02,汶川地震发生在北京时间2008-05-12T14:28,因此,在社交媒体上人们倾向于认为避免睡懒觉和午觉可以获得更大的逃生机率。与情感相关的主要是祝福“雅安”“震撼”“感动”“生者坚强”,反映了人们在获取到地震灾区相关受灾情况后的情感关注点。此外,“时间”“救灾”“救灾物资”也具有较高的相关性,说明在此类微博数据获取的时间段,人们重点关注救灾物资的情况。

      2)从社区2(图 7(b))可以看出,人们主要关注“雅安人民”“遇难人数”“死亡人数”“人员伤亡”,这是地震造成的主要伤害,同时会与汶川地震作比较,“不要睡午觉”“不要裸睡”也是社交媒体上人们对减少地震生命损失的直观意见。“地震”“余震”“救援队”“救援车辆”“逝者安息”则是在震后,人们主要关注救援队伍、救援车辆,同时对遇难者进行祈福。

      3)社区3(图 7(c))主要关注“雅安地震”“救援”“人民医院”。其中,“人民医院”主要和“医院”“救援工作”“生命通道”“联系”“地震中心”相关;“救援”与“启动应急”“消防支队”“震感强烈”“社会车辆”相关,可以看出在救援关键词中人与“不能裸睡”较为相关,说明人们认为裸睡会影响地震逃生;“雅安地震”与“地震台网”“报道”“转发”“成都”“房屋状况”相关。

      4)社区4(图 7(d))主要是“通信模块”,其中微信占据核心地位,这与目前在中国微信是主要的网络社交工具相符。同时,探究灾区情况、进行媒体报道的记者以及应急通讯中电话也是主要沟通方式,作为救援力量主体的“成都军区”也是关注焦点。

      5)社区5(图 7(e))为“四川省地震局”“中国地震台网”“雅安市芦山县政府”“四川卫视”,是微博上对地震新闻、最新消息、志愿者赶赴灾区状况进行报道的主体机构;“情系灾区”“救援队伍”“爱心接力”“地震宝宝”“捐赠电话”是公众关注的焦点。

      需要说明的是,由于本文中社交媒体数据集采用的是雅安地震科学数据集,因此分析的结果也主要聚焦于此,但不影响模型的有效性。

      对比分析CNKI社区划分结果与微博社区划分结果可知,科学文献数据集侧重于地震应急的专业知识,即地震应急涉及的核心概念、主导机构、主要技术手段等专业细节知识,而微博数据侧重于公众灾后的情感表达、信息关注焦点、对灾害的主观认知等生活化知识。前者专业知识深度较深,适于为地震应急中的决策者、执行者、研究者提供支持;后者的微博社交媒体数据广度较广,适于探究地震应急中普通群众的活动状态。两者可以相互补充,如可以利用前者的专业知识去引导社交媒体上民众的情绪,同时可以根据微博等社交媒体数据发现的知识,反过来帮助专业人士查漏补缺,加强相关方面的研究。综合两种数据分析结果,可更加全面立体地发现地震应急相关知识。

    • 本文提出了一种文本大数据中构建地震应急知识发现模型的方法,以CNKI数据集和微博数据集为实验数据,通过关键词提取、复杂网络构建、社区划分及结果分析实现了地震应急的知识发现。本文方法具有以下特点:(1)数据涵盖科学文献数据及社交媒体数据,覆盖地震应急知识领域更为全面。(2)将地震应急知识通过复杂网络可视化进行表达,以社区划分对知识进行聚类,从整体到局部,详细地对地震应急领域知识进行了组织梳理,便于用户获取所需知识。(3)对社区聚类结果进行分析,获取知识之间的关联关系,发现了地震应急领域需要进一步研究的知识焦点。

      本文方法减少了对专家经验和先验知识的依赖,是对已有研究成果的有效补充,同时可应用于类似领域。下一步可以对所发现知识的时空分布特征进行研究,知识空间结合地理空间进行进一步探索。

参考文献 (19)

目录

    /

    返回文章
    返回