留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

旋转森林模型在滑坡易发性评价中的应用研究

刘渊博 牛瑞卿 于宪煜 张凯翔

刘渊博, 牛瑞卿, 于宪煜, 张凯翔. 旋转森林模型在滑坡易发性评价中的应用研究[J]. 武汉大学学报 ● 信息科学版, 2018, 43(6): 959-964. doi: 10.13203/j.whugis20160132
引用本文: 刘渊博, 牛瑞卿, 于宪煜, 张凯翔. 旋转森林模型在滑坡易发性评价中的应用研究[J]. 武汉大学学报 ● 信息科学版, 2018, 43(6): 959-964. doi: 10.13203/j.whugis20160132
LIU Yuanbo, NIU Ruiqing, YU Xianyu, ZHANG Kaixiang. Application of the Rotation Forest Model in Landslide Susceptibility Assessment[J]. Geomatics and Information Science of Wuhan University, 2018, 43(6): 959-964. doi: 10.13203/j.whugis20160132
Citation: LIU Yuanbo, NIU Ruiqing, YU Xianyu, ZHANG Kaixiang. Application of the Rotation Forest Model in Landslide Susceptibility Assessment[J]. Geomatics and Information Science of Wuhan University, 2018, 43(6): 959-964. doi: 10.13203/j.whugis20160132

旋转森林模型在滑坡易发性评价中的应用研究

doi: 10.13203/j.whugis20160132
基金项目: 

国家863计划项目 2012AA121303

详细信息
    作者简介:

    刘渊博, 硕士生, 主要从事3S与滑坡灾害预测预报研究。giserlyb@163.com

    通讯作者: 牛瑞卿, 博士, 教授。rqniu@163.com
  • 中图分类号: P208

Application of the Rotation Forest Model in Landslide Susceptibility Assessment

Funds: 

The National 863 Plan Project of China 2012AA121303

More Information
    Author Bio:

    LIU Yuanbo, postgraduate, specializes in 3S and landslide hazard prediction. E-mail: giserlyb@163.com

    Corresponding author: NIU Ruiqing, PhD, professor. E-mail: rqniu@163.com
图(6) / 表(1)
计量
  • 文章访问数:  1018
  • HTML全文浏览量:  88
  • PDF下载量:  218
  • 被引次数: 0
出版历程
  • 收稿日期:  2016-11-07
  • 刊出日期:  2018-06-05

旋转森林模型在滑坡易发性评价中的应用研究

doi: 10.13203/j.whugis20160132
    基金项目:

    国家863计划项目 2012AA121303

    作者简介:

    刘渊博, 硕士生, 主要从事3S与滑坡灾害预测预报研究。giserlyb@163.com

    通讯作者: 牛瑞卿, 博士, 教授。rqniu@163.com
  • 中图分类号: P208

摘要: 以三峡库区万州段为研究区,从多源空间数据中提取29个致灾因子作为区域滑坡易发性分析的评价指标,在数字高程模型基础上采用集水区重叠法划分斜坡单元,构建旋转森林集成学习模型,定量预测滑坡空间易发性,并生成滑坡易发性分区图。在易发性分区图中,高易发区占11.6%,主要分布在万州主城区和长江及支流两岸;不易发区占45.6%,主要分布在人类工程活动低、植被覆盖度高的区域。采用受访者工作特征曲线和曲线下面积对旋转森林模型的滑坡易发性进行评价,结果显示该模型的预测精度为90.7%,其预测能力优于C4.5决策树。研究表明,应用旋转森林进行滑坡易发性评价具有预测能力强、精度高等优点。

English Abstract

刘渊博, 牛瑞卿, 于宪煜, 张凯翔. 旋转森林模型在滑坡易发性评价中的应用研究[J]. 武汉大学学报 ● 信息科学版, 2018, 43(6): 959-964. doi: 10.13203/j.whugis20160132
引用本文: 刘渊博, 牛瑞卿, 于宪煜, 张凯翔. 旋转森林模型在滑坡易发性评价中的应用研究[J]. 武汉大学学报 ● 信息科学版, 2018, 43(6): 959-964. doi: 10.13203/j.whugis20160132
LIU Yuanbo, NIU Ruiqing, YU Xianyu, ZHANG Kaixiang. Application of the Rotation Forest Model in Landslide Susceptibility Assessment[J]. Geomatics and Information Science of Wuhan University, 2018, 43(6): 959-964. doi: 10.13203/j.whugis20160132
Citation: LIU Yuanbo, NIU Ruiqing, YU Xianyu, ZHANG Kaixiang. Application of the Rotation Forest Model in Landslide Susceptibility Assessment[J]. Geomatics and Information Science of Wuhan University, 2018, 43(6): 959-964. doi: 10.13203/j.whugis20160132
  • 滑坡灾害是仅次于地震的第二大地质灾害[1-2],科学准确的滑坡易发性评价能为减灾防灾提供依据。目前,国内外学者利用多种机器学习模型实现了滑坡易发性评价。Dou等[3]和谭龙等[4]利用人工神经网络、Tehrany等[5]和牛瑞卿等[6]利用支持向量机、Tsangaratos等[7]和Hong等[8]利用决策树分别对滑坡易发性进行了定量预测。但这些预测模型均基于单分类器,而在区域滑坡空间预测过程中,涉及到的评价指标包括地形、地质、水文和人类工程活动等多种空间数据,这些数据具有种类多样、结构复杂、数据量大等特点,在构建预测模型时所采集的样本数据集中具有一定的干扰信息,而单分类器模型往往不能达到理想的预测结果,因此,通过组合多个单分类器来提高正确率和泛化能力的集成学习成为滑坡灾害研究的重要方向之一[9]

    本文介绍的旋转森林算法(rotation forest, ROF)是一种将C4.5决策树作为基分类器的集成分类算法,对样本数据集随机分割,采用特征变换有效地增大基分类器间的差异性,从而得到更好的集成效果。它已经被成功应用于遥感影像分类[10]、医疗诊断[11]、基因数据分类[12]、故障诊断[13]等多个研究领域,但目前国内外还未将旋转森林应用于滑坡易发性评价中。研究表明,该方法对噪声敏感度低,具有较好的准确率和稳定性[14],这些特性对于样本数据通常存在干扰信息的滑坡灾害空间预测研究具有很强的针对性。因此,本文以长江三峡库区万州段为研究区,利用ROF进行滑坡易发性评价。

    • ROF是通过对特征集进行随机分割,然后利用主成分分析(principal components analysis, PCA)对每个特征子集进行旋转变换,并保留所有的主成分进行训练,通过增加分类器之间数据集的差异性来保证基分类器的准确性[15]。而决策树对特征轴的旋转比较敏感,所以,常选择决策树作为基分类器。

      x=[x1 x2xn]T为一个具有n个属性的样本点,X为一个包含N个训练样本的训练集,构成N×n的矩阵,同时令Y=[y1 y2yN]是训练集X对应的类别,并且yi属于类别集合{w1, w2wc}。D1, D2DL为选择的L个基分类器,F为完整的特征集。

      分类过程包括4个步骤:①随机将特征集F划分成K个不相交的子集,每个子集将包含M个特征; ②对于每一个特征子集进行PCA后得到M′个主成分,每个都是M×1的向量; ③对每一个特征子集都进行步骤②的操作,将得到的所有的主成分系数存入一个系数矩阵Ri

      $$ {\mathit{\boldsymbol{R}}_i} = \left[ {\begin{array}{*{20}{c}} {a_{i,1}^{(1)},a_{i,1}^{(2)} \cdots a_{i,1}^{({M_1})}}&{\left[ 0 \right]}& \cdots &{\left[ 0 \right]}\\ {\left[ 0 \right]}&{a_{i,2}^{(1)},a_{i,2}^{(2)} \cdots a_{i,2}^{({M_2})}}& \cdots &{\left[ 0 \right]}\\ \vdots & \vdots & \ddots & \vdots \\ {\left[ 0 \right]}&{\left[ 0 \right]}& \cdots &{a_{i,k}^{(1)},a_{i,k}^{(2)} \cdots a_{i,k}^{({M_k})}} \end{array}} \right] $$ (1)

      式中,ai, k为PCA变换后的主成分,i=1, 2…L。按照原始特征集的顺序重新排列Ri,形成一个N×n的旋转矩阵Ria,则Di分类器所对应的训练集为XRia; ④在分类时, 对于每一个分类样本x,先经过xRia变换,通过分类器Di计算x属于每一个wj的概率,然后计算所有分类器的平均值:

      $$ {u_j}\left( x \right) = \frac{1}{L}\sum\limits_{i = 1}^L {{d_{i, j}}\left( {\mathit{\boldsymbol{xR}}_i^a} \right)} $$ (2)

      x属于概率最大的一类。式(2)中,uj(x)为x属于wj的平均概率;di, j (xRia)为Di分类器将x归为wj的概率。

    • 研究区位于长江三峡库区万州区境内,地理坐标为108°11′~108°33′E、30°24′~30°56′N,面积约为483 km2,三峡库区及各区县边界数据来源为三峡库区地质灾害防治工作指挥部地理信息系统矢量数据,图 1为研究区地理位置与滑坡分布示意图。该区位于长江上游地区、重庆东北部,地处三峡库区腹心,境内山丘起伏,丘陵、低山、低中山和山间平地面积约占1/2,少平坝和台地,且零星散布,相对高程达106~1 762 m。气候属亚热带季风湿润带,具有四季分明,日照充足,雨量充沛,霜雪稀少等特点。根据三峡地质灾害防治工作指挥部2010年地质灾害普查资料显示:万州区内发育的地质灾害约1 200处,预估计威胁居民8万多人,直接经济损失达数百万元。

      图  1  研究区位置示意图

      Figure 1.  Location of the Study Area

    • 研究区地层划分如图 2所示,区内出露的地层总体上从长江两岸往南北由新到老,多见于中生界侏罗系和三叠系。而岩性多为泥岩或泥岩砂岩相间,抗剪强度较低,在水的侵蚀作用下极容易产生滑坡。

      图  2  研究区地层划分

      Figure 2.  Regional Geological Map of the Study Area

    • 本文采用的主要数据源包括:①Landsat OLI卫星影像数据一景(时间为2013-02-24,轨道号为127/039),用于提取地表覆盖和人类工程活动等信息;②1:5万地形图,用于提取地形地貌、水文条件等相关信息;③1:5万地质图,用于提取工程岩组等信息;④该区包括灾害名称、面积、体积等属性的滑坡空间分布数据,可以从三峡库区地质灾害防治工作指挥部1:10 000灾害地质图数据库中获取。研究区内共有滑坡233处,总面积约24.06 km2,约占整个研究区总面积的4.9%。其中,最小滑坡面积约3 542 m2,最大滑坡面积约1.1 km2,典型的有驸马滑坡、塘角村滑坡等,其全貌高分一号影像如图 3所示。

      图  3  典型滑坡遥感影像

      Figure 3.  Remote Sensing Image of Typical Landslide

    • 针对滑坡空间预测问题,首先在收集研究区数据资料的基础上选择合理的评价指标;其次针对预测模型划分适当的评价单元;然后建立ROF模型,计算滑坡易发性指数,并绘制滑坡易发性分区图;最后对预测模型及预测精度进行检验。

    • 影响滑坡发生的因素包括控制因素和诱发因素。前者指对滑坡发生起控制作用的地质和地形地貌因素等,该类因素在短时期内是基本稳定的,如地层岩性、地质构造、地形等;后者指对滑坡发生起触发作用的因素,其作用会加速滑坡灾害发生的时间,如降雨、人类工程活动等。本文根据研究区的具体特点和前人研究成果[16-17],选取地形地貌类因子:高程、坡度、坡向、坡高、斜坡形态、地形表面纹理、地形粗糙指数、地形位置指数、地形表面凸率、地形汇聚指数、相对坡位、平面曲率、剖面曲率、地形曲率;基础地质类因子:工程岩组、改进的太阳辐射地形因子计算模型指数[18];水文条件类因子:水系距离、流域面积、流路长度、地形湿度指数、河谷深度、流域坡度、河流强度指数、距河网垂直距离;地表覆盖类因子:归一化植被指数、归一化湿度指数;诱发因素:降雨、地震、归一化建筑指数。而对于工程岩组和斜坡形态这种名义尺度的变量通常根据对滑坡的危险性的“贡献”程度转换为有序尺度的变量。本文采用专家打分法[19]并结合统计分析结果进行量化取值(见表 1),其他因子使用实际值。

      表 1  评价因子量化

      Table 1.  Evaluation Factor Quantization

      因子 评价标准 危险性 评分值
      硬岩 不危险 1
      工程岩组 软硬相间 较重危险 2
      软岩 重度危险 3
      GE/GR 不危险 1
      GE/V 轻度危险 2
      GE/X 轻度危险 3
      V/GR 轻度危险 4
      斜坡形态 X/GR 轻度危险 5
      X/V 重度危险 6
      V/X 重度危险 7
      X/X 极度危险 8
      V/V 极度危险 9
    • 基于ROF模型滑坡易发性评价的具体步骤如下。

      1) 划分评价单元。斜坡单元是滑坡、崩塌等地质灾害发育的基本单元,并且在致灾因素中,河流和沟谷的发育阶段对滑坡的形成具有明显的控制作用,因此采用基于幼年期沟谷划分的斜坡单元作为评价单元,可以与地质环境条件紧密联系,综合体现致灾因素的作用,使评价结果更贴近于实际[20]。本文采用斜坡单元作为评价单元,其划分方法为在数字高程模型基础上采用“集水区重叠法”。首先对正、反数字高程数据进行洼地填充;然后分别对河流流向、累积流量、河流网络进行计算、并绘制集水区;最后通过正反集水区重叠切割以及人工编修生成斜坡单元。通过此方法将研究区划分为1 909个评价单元。

      2) 构建特征集。由29个评价因子作为条件属性和是否滑坡作为决策属性(1代表滑坡或易发,0代表非滑坡或不易发)形成一张二维表,每一行描述一个评价单元,每一列描述对应评价单元的某中属性,因此,该二维表包含了1 909行和30列。

      3) 选择模型训练样本。为消除无量纲影响,将所有评价因子归一化到0~1之间。用全部的滑坡数据和相同数量的非滑坡数据随机选取80%形成训练样本集,20%作为验证样本集。

      4) 建立ROF模型。对同一数据集,M的取值与分类器的精度并不存在单调对应关系,其精度也会随着M取值的不同而有所变化。但是通过实验发现,当M=1或者n,所得到的效果最差,其他取值时变化不大,因为M=1时,经过旋转变换和重组后,所有基分类器数据集都是相同的,不属于集成分类器;当M=n时没有对属性集进行分割。而对于分类器的个数,当L=10时即可达到很好的分类效果[21]。本文选择M=3, L=10进行旋转森林模型训练。

      5) 滑坡易发性评价。利用ROF模型对研究区内所有评价单元进行计算,得到每个评价单元属于各分类的概率值,利用属于滑坡类的概率值生成滑坡易发性指数图,根据易发性指数生成易发性分区图。

    • 通过ROF模型计算得到的滑坡易发性指数值为0~1,对应滑坡易发性从低到高。为了区分滑坡的易发程度,根据分布直方图的分布特点,采用自然间断点法将ROF预测的滑坡易发性指数划分为[0, 0.22)、[0.22, 0.49)、[0.49, 0.76)、[0.76, 1.0),分别对应为不易发区、低易发区、中易发区和高易发区,结果见图 4(a)。图中显示高易发区主要分布在苎溪河两岸、大周镇到万州城区长江左岸、太龙镇长江右岸和万州主城区;不易发区主要分布在武陵镇长江左岸以及远离长江两岸、人类工程活动低、植被覆盖度高的区域。

      图  4  滑坡易发性分区图

      Figure 4.  Landslide Susceptibility Zoning Map

      而为了分析ROF的预测结果,利用基分类器C4.5决策树同样进行了预测,其计算得到的滑坡易发性指数采用相同的方法划分出易发性分区图,结果见图 4(b)

      为了比较ROF和C4.5决策树的预测结果,通过计算两种模型易发性分区图的每个类别中存在滑坡的个数与每个类别个数的比值,即特定类别精度[22],公式如下:

      $$ {P_j} = \frac{{{A_j}}}{{{B_j}}} \times 100\% $$ (3)

      式中,j=1, 2…M(M为滑坡易发性分区类别的总数); AjBj分别为第j类滑坡易发性分区中存在滑坡的斜坡单元个数和斜坡单元总数。两种模型的特定类别精度如图 5所示。由图 5可见,ROF模型在高易发区的特定类别精度远远高于C4.5模型,由此说明,ROF模型预测的滑坡易发性分区中高易发区包含了更多先前调查的滑坡。

      图  5  不同预测模型的特定类别精度

      Figure 5.  The Class-Specific Accuracies by Different Prediction Models

      为进一步比较ROF模型和C4.5决策树的预测能力,本文采用了受访者工作特征(receiver operator characteristic, ROC)曲线和曲线下的面积(area under curve, AUC)对其进行精度评价[23]。ROC曲线以只有正类(滑坡)和负类(非滑坡)的二分类方式为例,以敏感度(滑坡而被预测为滑坡)为纵坐标,以1-特异性(不是滑坡而被预测为滑坡)为横坐标绘制的曲线。ROC曲线越靠近左上角即AUC越大,说明预测精度越高。两种模型预测结果的ROC曲线和AUC值如图 6所示,由图 6可见, ROF模型对滑坡预测结果的ROC曲线更靠近左上角,其AUC值为0.907,即预测精度为90.7%,高于C4.5决策树模型的79.8%。通过检验20%的样本集得到了ROF模型、C4.5决策树模型的准确率分别为84.3%和72.3%。因此,ROF模型的预测能力优于C4.5决策树,并且其预测结果可靠。

      图  6  受访者工作特征曲线

      Figure 6.  Receiver Operator Characteristic Curve

    • 本文在C4.5决策树的基础上构建了ROF模型,定量预测了滑坡易发性,生成滑坡易发性分区图,并采用ROC曲线和AUC评价了预测结果。研究表明,ROF模型将多个C4.5决策树分类器集成起来,并将每个分类器的分类结果加权平均决定最终的分类,相比C4.5决策树单分类器模型,ROF模型具有更好的精度和可靠性,同时也具有更好的分类能力,在一定程度上解决了滑坡易发性分析中评价因子具有干扰信息造成精度不高的问题。因此,将ROF应用在滑坡易发性评价中具有广泛的应用前景。

参考文献 (23)

目录

    /

    返回文章
    返回