留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

地理因子支持下的滑坡隐患点空间分布特征及识别研究

张福浩 朱月月 赵习枝 张杨 石丽红 刘晓东

张福浩, 朱月月, 赵习枝, 张杨, 石丽红, 刘晓东. 地理因子支持下的滑坡隐患点空间分布特征及识别研究[J]. 武汉大学学报 ● 信息科学版, 2020, 45(8): 1233-1244. doi: 10.13203/j.whugis20200126
引用本文: 张福浩, 朱月月, 赵习枝, 张杨, 石丽红, 刘晓东. 地理因子支持下的滑坡隐患点空间分布特征及识别研究[J]. 武汉大学学报 ● 信息科学版, 2020, 45(8): 1233-1244. doi: 10.13203/j.whugis20200126
ZHANG Fuhao, ZHU Yueyue, ZHAO Xizhi, ZHANG Yang, SHI Lihong, LIU Xiaodong. Spatial Distribution and Identification of Hidden Danger Points of Landslides Based on Geographical Factors[J]. Geomatics and Information Science of Wuhan University, 2020, 45(8): 1233-1244. doi: 10.13203/j.whugis20200126
Citation: ZHANG Fuhao, ZHU Yueyue, ZHAO Xizhi, ZHANG Yang, SHI Lihong, LIU Xiaodong. Spatial Distribution and Identification of Hidden Danger Points of Landslides Based on Geographical Factors[J]. Geomatics and Information Science of Wuhan University, 2020, 45(8): 1233-1244. doi: 10.13203/j.whugis20200126

地理因子支持下的滑坡隐患点空间分布特征及识别研究

doi: 10.13203/j.whugis20200126
基金项目: 

国家重点研发计划 2016YFC0803108

兰州交通大学优秀平台支持 201806

详细信息
    作者简介:

    张福浩,博士,研究员,主要从事政府地理信息系统研究。Zhangfh@casm.ac.cn

    通讯作者: 赵习枝,博士。zxz@casm.ac.cn
  • 中图分类号: P208

Spatial Distribution and Identification of Hidden Danger Points of Landslides Based on Geographical Factors

Funds: 

The National Key Research and Development Program of China 2016YFC0803108

the Lanzhou Jiaotong University EP 201806

More Information
    Author Bio:

    ZHANG Fuhao,PhD,professor, specializes in government geographic information system.E-mail:Zhangfh@casm.ac.cn

    Corresponding author: ZHAO Xizhi, PhD. E-mail: zxz@casm.ac.cn
图(10) / 表(3)
计量
  • 文章访问数:  523
  • HTML全文浏览量:  108
  • PDF下载量:  103
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-03-29
  • 刊出日期:  2020-08-05

地理因子支持下的滑坡隐患点空间分布特征及识别研究

doi: 10.13203/j.whugis20200126
    基金项目:

    国家重点研发计划 2016YFC0803108

    兰州交通大学优秀平台支持 201806

    作者简介:

    张福浩,博士,研究员,主要从事政府地理信息系统研究。Zhangfh@casm.ac.cn

    通讯作者: 赵习枝,博士。zxz@casm.ac.cn
  • 中图分类号: P208

摘要: 利用中国湖南省湘西自治州407个滑坡灾害隐患点数据以及地质构造、地形地貌、人类活动等地理因子数据,分析研究区滑坡灾害点的空间分布特征、成因机理及发育环境。研究发现,湘西自治州滑坡多发生在海拔高程400~600 m、坡度3°~30°、坡向为西北方向、剖面曲率为-0.6~1.4的地方。从滑坡所在的岩性及地质构造看,湘西自治州滑坡多以土质滑坡为主,规模主要以小中型为主;在地质类型上,滑坡多分布在白垩纪和第三系红层,以及三叠纪巴东组红层和奥陶纪泥质灰岩及泥灰岩层等。极端梯度提升(extreme gradient boosting, XGBoost)算法识别滑坡点的准确率为91.27%,样本精确率为89.75%,召回率为88.21%,均高于随机森林算法,这表明XGBoost算法在滑坡检测中可以达到较高的精度。特征重要性分析结果表明,坡度、植被覆盖率大小是影响滑坡发生的重要因子。

English Abstract

张福浩, 朱月月, 赵习枝, 张杨, 石丽红, 刘晓东. 地理因子支持下的滑坡隐患点空间分布特征及识别研究[J]. 武汉大学学报 ● 信息科学版, 2020, 45(8): 1233-1244. doi: 10.13203/j.whugis20200126
引用本文: 张福浩, 朱月月, 赵习枝, 张杨, 石丽红, 刘晓东. 地理因子支持下的滑坡隐患点空间分布特征及识别研究[J]. 武汉大学学报 ● 信息科学版, 2020, 45(8): 1233-1244. doi: 10.13203/j.whugis20200126
ZHANG Fuhao, ZHU Yueyue, ZHAO Xizhi, ZHANG Yang, SHI Lihong, LIU Xiaodong. Spatial Distribution and Identification of Hidden Danger Points of Landslides Based on Geographical Factors[J]. Geomatics and Information Science of Wuhan University, 2020, 45(8): 1233-1244. doi: 10.13203/j.whugis20200126
Citation: ZHANG Fuhao, ZHU Yueyue, ZHAO Xizhi, ZHANG Yang, SHI Lihong, LIU Xiaodong. Spatial Distribution and Identification of Hidden Danger Points of Landslides Based on Geographical Factors[J]. Geomatics and Information Science of Wuhan University, 2020, 45(8): 1233-1244. doi: 10.13203/j.whugis20200126
  • 中国湖南省湘西自治州地貌形态多样,以中低山为主,降水丰富,地质条件复杂,是地质灾害易发区和重点防护区[1]。根据《湘西自治州地质灾害防治规划(2011—2020)》、县(市)地质灾害调查与区划资料统计,湘西自治州实有滑坡隐患点407处。2007-07常吉高速泸溪县潭溪镇朱雀洞发生特大滑坡,造成直接经济损失超过8 000万元[2];2017-06-24,319国道泸溪段多处出现山体滑坡,造成较大的经济损失。

    滑坡发生机制十分复杂,是多种影响因子特别是地理因子相互作用的结果。影响因子主要分为两个方面:(1)内部因子,如坡度、坡向、岩性、土壤、植被覆盖、地层构造等。(2)诱发因子,主要包括降雨、人类活动等。借助GIS、RS技术和地学统计方法开展滑坡影响因子研究,主要研究与其影响因子的关系、总体空间格局及分布特征。参考文献[3-10]的影响因子分析及其空间分布,可看出滑坡通常发生在某一地形条件上,由降水或人类活动等因素诱发形成。

    目前,对滑坡的研究主要集中在以下方面:(1)利用光学遥感技术对某地区的滑坡灾害,如对汶川地震区绵竹市[11]、黄土高原地区[12-13]等进行遥感影像解译;同时,利用数字高程模型(digital elevation model, DEM)提取地表参数等,为研究滑坡的地形特征提供一种手段,如四川九寨沟[14]、东南地区[15]、雅鲁藏布江[16]、英国哥伦比亚奇利瓦克和盆地[17],分析灾害的发育规律、分布规律并进行危险性评价[18]。(2)通过合成孔径雷达(interferometric synthetic aperture radar,InSAR)技术捕捉滑坡发生前的地表形变,以及滑坡失稳前的加速变形信号或者大面积缓慢蠕滑变形,提供一种提早识别隐患滑坡体的方法和手段[18-25]。通过工程地质勘察,对滑坡的成因和识别进行分析并提出相应的解决措施[26-29]。(3)采用定性、定量方法对滑坡易发性地区进行研究,如基于专家知识的定性分析推理[30]、基于数学建模的统计分析[31]、基于滑坡过程的模型分析[32]。随着计算机科学与技术的发展,结合前人研究,机器学习中的逻辑回归[3]、人工神经网络[3]、随机森林[3, 6, 33]、支持向量机[6, 33]、BP(back propagation)神经网络[6]、决策树[6]等算法被广泛地应用于滑坡识别[33-35],较好地解决了非线性关系表达的问题,提高了滑坡识别的精度。文献[3]基于逻辑回归、人工神经网络、随机森林,结合GIS对重庆市奉节县高程、坡度、坡向等16个因子进行研究分析,并对比分析不同算法的结果。文献[6]基于随机森林、支持向量机、BP神经网络、决策树对地形地貌、地层岩性等6种影响因子进行实验,并对模型分类结果进行对比。同时,机器学习算法自学能力强,能挖掘特征之间的潜在联系,对专家知识的依赖性小,且能够产生可重复的结果[35]。XGBoost是一种基于决策树的集成学习方法,在多个领域的分类和回归预测中取得了较好的效果[36-38]。目前仍鲜有研究将XGBoost应用于滑坡评估和预测。

    本文以中国湖南省湘西自治州为研究区域,利用滑坡灾害隐患点数据及地形地貌、环境水文、人类活动等数据,应用空间统计分析、叠置分析和缓冲区分析等地理信息技术,研究湘西自治州的孕灾环境、滑坡灾害隐患点时空分布规律及其与地质环境的相关性,实现湘西自治州滑坡空间分布特征的定量分析;并利用XGBoost算法进行特征贡献分析,计算因子的重要程度。

    • 湘西自治州位于湖南省西北部,地理坐标为109°10'E~110°22.5'E、27°44.5'N~29°38'N。武陵山脉自西向东蜿蜒境内,系云贵高原东缘武陵山脉东北部。湘西州境域南北长约240 km,东西宽约170 km,是湖南省内地质灾害易发、多发且危害比较严重的地区。

      本文所使用的数据及数据来源见表 1。其中,滑坡隐患点数据由各地国土资源局等部门通过实地调查获得,表示有可能发生滑坡的地点。其他数据主要用于提取影响滑坡发生的因素,包括地形地貌、地质构造、土地覆盖、水文、人类活动等类型,通过梳理文献[3, 6, 33]可知,这些因素可能对湘西自治州滑坡的发生有较大影响。受数据本身特点及可用性的限制,难以保证所有数据具有相同的获取时间和空间分辨率,因此在数据选取时,尽可能保证获取时间相近、空间分辨率合理。

      表 1  数据及数据来源

      Table 1.  Data and Data Sources

      类型 数据 时间 分辨率 数据来源
      滑坡数据 滑坡隐患点 截至2017年 中国科学院资源环境科学数据中心资源环境数据云平台(http://www.resdc.cn/Default.aspx)
      地形地貌 DEM 2013年 30 m ASTER GDEM 30 m分辨率数字高程数据(https://search.earthdata.nasa.gov/search
      地质构造 岩性地质构造 2018年 中国科学院资源环境科学数据中心资源环境数据云平台(http://www.resdc.cn/Default.aspx)
      土地覆盖 土地利用 2018年 地理国情普查
      NDVI 2018年 30 m Landsat8 OLI_TIRS卫星数字产品数据30 m空间分辨率(https://search.earthdata.nasa.gov/search
      土壤湿度 2014年 0.25° 欧洲航天局的气候变化倡议数据集COMINBED产品
      水文条件 降水 2018年 全球降水测量数据level3(https://pmm.nasa.gov/precipitation-measurement-missions
      河流 2018年 地理国情普查
      人类活动 道路、建筑物、构筑物、人工堆掘地、裸露地 2018年 地理国情普查
    • 无论是自然斜坡还是人工边坡都不是一成不变的,受自然因素和人为环境影响,斜坡一直处于运动变化之中。本文选取高程、坡度、坡向、剖面曲率、归一化植被指数(normalized differential vegetation index,NDVI)、土壤湿度、降水、岩性、地质构造,以及滑坡点至道路、水域、建筑物、构筑物、人工堆掘地、裸露地及断层的距离等21个地理因子。其中,高程、坡度、坡向、剖面曲率等属于地形地貌因子;地层岩性、是否有断层等属于地质构造因子;降水、水域等属于水文因子;植被覆盖率、土壤湿度等属于土地覆盖因子;道路、建筑物、构筑物、人工堆掘地等至滑坡灾害点的距离属于人类活动因子。

      根据地理国情普查数据,运用邻近分析等形成道路、建筑物、构筑物、人工堆掘地、裸露地等距离滑坡点的距离数据;利用DEM数据运用空间分析工具计算出研究区的坡度、坡向、曲率数据;面积数据包括耕地面积、林地面积、道路面积、水域面积、建筑物面积、构筑物面积、人工堆掘地面积以及裸露地面积,指的是滑坡点周围500 m缓冲区内的耕地、林地、道路、水域、建筑物、构筑物、人工堆掘地以及裸露地的面积;运用提取工具从空间分辨率为1°×1°的全球降水量测量(global precipitation measurement,GPM)降水数据中获取每个滑坡隐患点的降水数据;通过波段运算(NDVI=(近红外波段-红外波段)/(近红外波段+红外波段))并剔除无效值得到NDVI数据;利用ArcGIS提取工具获取每个滑坡点的土壤湿度。

      本文通过统计滑坡隐患点在不同高程、坡度、植被覆盖等区域的数量,分析滑坡隐患点的空间分布特征。

    • 地形地貌因素主要有高程、坡度、坡向、剖面曲率4个因子。将4个因子按照数值大小划分等级,统计滑坡隐患点的分布频次,如图 1所示。

      图  1  地形地貌因子滑坡隐患点分布频次统计

      Figure 1.  Distribution Frequency of Landslide Hidden Danger Points

      湘西自治州西北部地势较高、地形复杂,滑坡点多于其他地区。本文将研究区高程分为0~200 m、200~400 m、400~600 m、600~800 m、800~1 000 m共6级,统计各级高程中滑坡灾害隐患点的分布。从图 1(a)可以看出,滑坡点在高程400~600 m分布最多,高程200~400 m次之,高程大于1 000 m分布最少。

      坡度是滑坡的一个重要影响因子,结合文献[39-40],将坡度划分为0°~3°、3°~12°、12°~21°、21°~30°、30°~40°、 > 50°共6个等级。统计发现滑坡隐患点多发生在3°~12°、12°~21°、21°~30°等不稳定斜坡,总体上高陡斜坡比低缓斜坡更容易失稳而发生滑坡。

      坡向与降水及太阳辐射的关系密切,并影响着植被、土壤湿度、土地利用等因子。利用DEM生成坡向图,并划分为北(0°~22.5°、337.5°~360°)、东北(22.5°~67.5°)、东(67.5°~112.5°)、东南(112.5°~157.5°)、南(157.5°~202.5°)、西南(202.5°~247.5°)、西(247.5°~292.5°)、西北(292.5°~337.5°)等8个方向。从图 1(c)中可以看出,研究区滑坡隐患点分布的数量为西北 > 东南 > 南。

      剖面曲率是对某一地面点上坡度沿最大坡降方向地面高程变化率的度量,或者称为高程变化的二次导数,用来描述地表上任一曲面在垂直方向的弯曲变化情况[41]。通过空间分析生成曲率图,将其划分为 < -2.6、-2.6~-0.6、-0.6~1.4、1.4~3.4、 > 3.4共5级。从图 1(d)中可以看出,滑坡分布在剖面曲率-2.6~1.4,其中大多数分布在曲率为-0.6~1.4的地方,表明大多数滑坡分布在地形稍有起伏的区域。

    • 地层岩性是滑坡产生的物质基础,虽然不同地质时代、不同岩性的地层都可能形成滑坡,但滑坡产生的数量和规模与岩性有密切的关系[42]。湘西自治州地层年代以寒武纪、奥陶纪、志留纪、震旦纪、白垩纪为主,有少量新元古代、中元古代、三叠纪、二叠纪、晚第三纪、泥盆纪和侏罗纪分布, 见图 2图 3。地层岩性主要以陆源碎屑沉积岩为主,分布着软弱-较坚硬厚层状泥(页)岩夹砂岩岩组和软硬相间薄层-层块状砂砾岩与泥(页)岩互层岩。

      图  2  湘西自治州岩层、断层及滑坡点分布

      Figure 2.  Distribution of Rock Formations, Faults and Landslide Hidden Danger Points in Xiangxi Autonomous Prefecture

      图  3  地层年代滑坡隐患点分布频次

      Figure 3.  Distribution Frequency of Landslide Hidden Danger Points of Stratigraphic

      断层的规模与滑坡的密度也有一定的关系,一般来说,断层的规模越大,其形成的断裂破碎带对两侧地层的影响也越大,因为断裂切割与走滑造成凌空面或者沟谷,为滑坡的发生提供了条件[43-44]。根据已有断层数据分别计算200 m、400 m、600 m、800 m、1 000 m、 > 1 000 m范围内滑坡点分布的个数,表明随着缓冲区距离的增加,滑坡隐患点沿断层缓冲区域分布增多,见图 2图 4

      图  4  与断层距离滑坡隐患点分布频次

      Figure 4.  Distribution Frequency of Landslide Hidden Danger Points from the Faults

    • 土地覆盖是影响滑坡发生的一个重要因子,植被覆盖率高,表明植被发育好,水土保持能力强;而植被覆盖率较低的地区,植被发育得一般,水土保持能力弱,当发生连续性强降雨时,容易发生滑坡等地质灾害。本文采取两种类型的植被数据:(1)利用Landsat8 OLI_TIRS数据计算的NDVI。NDVI反映地表植被覆盖情况,NDVI越大,植被覆盖率越高,反之则越低。(2)统计国情数据中的耕地、林地等数据。具体见图 5图 6

      图  5  湘西自治州NDVI指数

      Figure 5.  NDVI Index of Xiangxi Autonomous Prefecture

      图  6  NDVI指数滑坡隐患点分布频次

      Figure 6.  Distribution Frequency of Landslide Hidden Danger Points of NDVI Index

      总体上,滑坡隐患点主要分布在NDVI指数为0.3~0.4和0.2~0.3区域,整体上与NDVI呈正相关。NDVI相对大的区域,滑坡点分布较多。但随NDVI的增大,滑坡点的分布逐渐减少。NDVI较小的地区,植被固坡能力弱,容易发生滑坡。

      滑坡和土壤湿度关系密切,滑坡常在土壤湿度高的区域中启动。本文通过处理ESACCI SM数据集,统计5月—9月平均土壤湿度数据,发现滑坡隐患点主要分布在土壤湿度为0.000 037~0.000 038 mm3/mm3的区域(见图 7)。

      图  7  土壤湿度滑坡隐患点分布频次

      Figure 7.  Distribution Frequency of Landslide Hidden Danger Points of Soil Moisture

    • 降水是诱发滑坡灾害的一个重要的外部因子,与滑坡的发生密切相关[33]。降雨冲刷坡体土地表面,使坡体表面失稳,导致坡体受到侵蚀。降雨诱发的滑坡,不是某个时间点诱发的,而是某个时间段的持续性强降雨。通过统计GPM level3 2018年降雨数据,将其划分为0~0.05 mm、0.05~0.10 mm、0.10~0.15 mm、0.15~0.20 mm、0.20~0.25 mm、0.25~0.30 mm、0.30~0.35 mm、0.35~0.40 mm共8个等级(见图 8)。滑坡灾害点在0.25~0.30 mm区域分布最多,0.20~0.25 mm、0.35~0.40 mm区域次之。

      图  8  降水滑坡隐患点分布频次

      Figure 8.  Distribution Frequency of Landslide Hidden Danger Points of Precipitation

      湘西自治州境内水系发达,统沿河地区基岩和土壤受到不同程度的软化,为滑坡的发育提供了条件,其中63.64%的滑坡隐患点位于距河流500 m范围内。

    • 由于城市化的快速发展,因人为因素如修路、采矿等活动孕育滑坡灾害的可能性增强。本文统计了距离滑坡灾害隐患点500 m范围内的建筑物、构筑物、人工堆掘地、裸露地、道路,39.56%的滑坡隐患点位于距构筑物500 m范围内,86.98%的滑坡隐患点位于距建筑物500 m范围内,87.96%的滑坡隐患点位于距道路500 m范围内,29.97%的滑坡隐患点位于距人工堆掘地500 m范围内,20.39%的滑坡隐患点位于距裸露地500 m范围内,可见道路、建筑物对滑坡影响较大。

      总体上,湘西自治州滑坡高发区多为丘陵-低山区,即多在海拔高程400~600 m分布,且坡度在3°~30°不稳定斜坡上,坡向为西北方向、曲率为-0.6~1.4的地方。降水是诱发滑坡发生的重要因素之一,滑坡隐患点在降水值为0.25~0.30 mm区域分布最多。从滑坡所在的岩性及地质构造看,湘西自治州滑坡多以土质滑坡为主,规模主要以小中型为主,其中小型占总数的73.46%,中型占总数的21.36%。在地质类型中,滑坡多发于力学强度较低的软弱-较坚硬的层状结构和软硬相间的互层结构的碎屑岩岩组中,以及松散结构的土体中,湘西自治州滑坡点主要分布在白垩纪和第三系红层,以及三叠纪巴东组红层和奥陶纪泥质灰岩及泥灰岩层等。在人类工程活动中,坡体的稳定被人为破坏,持续性降雨诱发滑坡,距离建筑物、公路等交通设施一定范围内的滑坡较多。

    • XGBoost是一种基于决策树的集成学习算法[45-47],通过组合多个有偏好的弱学习器(即决策树)来完成学习任务,从而得到较好的分类模型。XGBoost采用分步前向加性模型,通过优化结构化损失函数(加入正则项的损失函数,可以起到降低过拟合的风险)来实现弱学习器的生成。相对于其他集成学习算法,XGBoost没有采用搜索方法,而是直接利用了损失函数的一阶导数和二阶导数值,并通过预排序、节分权位数等技术来提高算法的性能。在引入正则化项后,算法会选择简单而性能优良的模型,损失函数中右端的正则化项知识用来在每次迭代中抑制弱学习器过拟合,并不参与最终模型的集成。另外,XGBoost要求L函数至少是二阶连续可导的凸函数:

      $$ {{L}^{\left( t \right)}}\simeq \underset{i=1}{\overset{n}{\mathop \sum }}\,[l({{y}_{i}},{{\overset{\wedge }{\mathop{{{y}_{i}}}}\,}^{\left( t-1 \right)}})+{{g}_{i}}{{f}_{t}}\left( {{x}_{i}} \right)+\frac{1}{2}{{h}_{i}}{{f}_{t}}{{\left( {{x}_{i}} \right)}^{2}}]+\mathsf{\Omega }\left( {{f}_{t}} \right) $$ (1)

      式中,t表示第t轮迭代;i表示第i个样本;yi是实际值; $\mathop {{y_i}}\limits^{{ \wedge ^{\left( {t - 1} \right)}}} {\mkern 1mu} $是第i-1轮的预测值;$\mathop {\mathop \sum \limits^n }\limits_{i = 1} {\mkern 1mu} l({y_i},\mathop y\limits^ \wedge {\mkern 1mu} _i^{\left( {t - 1} \right)})$为t-1轮的预测误差,为常数;gi为一阶导;hi为二阶导;ftxi)表示的是第i个样本在第t轮中被分类到所在叶子的权重;ft表示第t轮所生成的树模型;Ωft)为正则化项。

      将目标函数改写为关于叶子节点得分w的一元二次函数,求其最优解wj和目标函数值Ot:

      $$ {w_j} = - \frac{{{G_j}}}{{{H_j} + \lambda }} $$ (2)
      $$ {O^t} = - \frac{1}{2}\mathop \sum \limits_{j = 1}^T \left( {\frac{{G_j^2}}{{{H_j} + \lambda }} + {\gamma ^T}} \right) $$ (3)

      式中,j为第j个叶子节点; T为叶子节点总数;γλ为预先设计的超参数;令$\mathop \sum \limits_{i \in {I_j}} {g_i} = {G_i} $,$\mathop \sum \limits_{i \in {I_j}} {h_i} = {H_i} $,Ij为第j个叶子上的样本集合。将其代入经过二阶泰勒展开优化的目标函数。

      在模型建立过程中定义损失函数为:

      $$ J\left( {{f_t}} \right) = \mathop {\mathop \sum \limits^n }\limits_{i = 1} {\mkern 1mu} ({y_i},\mathop {{y_i}}\limits^ \wedge {{\mkern 1mu} ^{\left( {t - 1} \right)}} + {f_t}\left( {{x_i}} \right)) + \Omega \left( {{f_t}} \right) + C $$ (4)

      式中,xi为每一个数据点;C为常数项;

      $$ \Omega \left( {{f_t}} \right) = {\gamma ^{{T_t}}} + \frac{1}{2}\lambda \mathop \sum \limits_{j = 1}^T \omega _{{j^{}}}^2 $$ (5)

      式中,Tt为第t轮迭代中的叶子节点数;ωj为叶子节点j的权重。

      经XGBoost调参后,结合混淆矩阵法对模型进行验证。混淆矩阵又称错误矩阵,是一种特定的矩阵,用来呈现算法性能的可视化效果。评价指标有准确率、精确率、召回率和F值(F值是精确率和召回率的加权调和平均)等。其中,若一个实例是正类并被预测成为正类,即为真正类(true positive,TP);若一个实例是负类并被预测成为负类,即为真负类(true negative,TN);若一个实例是负类但被预测成为正类,即为假正类(false positive,FP);若一个实例是正类但被预测成为负类,即为假负类(false negative,FN)。

      准确率A是最常见的评价指标,指的是分类模型所有判断正确的结果占全部观测值的比重,通常来说,准确率越高,分类器越好。计算式为:

      $$ A = \frac{{{T_P} + {T_N}}}{{{T_P} + {T_N} + {F_P} + {F_N}}} \times 100{\rm{\% }} $$ (6)

      式中,TP表示真正类;TN表示真负类;FP表示假正类;FN表示假负类。

      精确率P表示预测为正的样本中符合实际值的比重,计算公式为:

      $$ P = \frac{{{T_P}}}{{{T_P} + {F_P}}} \times 100{\rm{\% }} $$ (7)

      召回率R是覆盖面的度量,度量有多个正样本被正确分类,计算公式为:

      $$ R = \frac{{{T_P}}}{{{T_P} + {F_N}}} \times 100{\rm{\% }} $$ (8)

      特征重要性度量指标是评估每个特征在所属特征集中重要程度的一种衡量方式。一般来说,重要性提供了一个评分,它表明每个特性在模型增强决策树的构建中的价值和有用性。XGBoost提供3种特征重要性度量指标计算方法,分别是根据特征分裂的次数、特征平均增益值和特征平均覆盖率来作为其构建决策树的依据,以便完成分类任务[38]

      选取湘西自治州1 020个样本点,其中滑坡灾害点407个,为了构建二值化分类模型,需随机抽取一定数量的非滑坡点数据。参考文献[3, 48],利用ArcGIS缓冲分析建立500 m滑坡点缓冲区,结合研究区内河流等水域作为非滑坡区,随机抽取613个样本作为非滑坡样本。利用XGBoost构建滑坡隐患点和非隐患点的分类模型,将分类结果与实际情况进行对比,通过计算混淆矩阵分析模型的精度及特征重要性(见图 9)。

      图  9  技术路线

      Figure 9.  Technical Route

    • 利用XGBoost建立滑坡灾害隐患点识别模型,模型的混淆矩阵如表 2所示。1 020个样本点中,931个样本点被正确分类,模型准确率为91.27%;在407个滑坡灾害隐患点中,被模型识别为滑坡的有359个,识别为非滑坡的有48个,召回率为88.21%;模型识别的400个滑坡灾害隐患点中,实际为滑坡的有359个,为非滑坡的有41个,精确率为89.75%。

      表 2  基于XGBoost的滑坡灾害隐患点识别模型混淆矩阵

      Table 2.  Confusion Matrix of Landslide Hazard Identification Model Based on XGBoost

      混淆矩阵 预测值
      滑坡 非滑坡 合计
      实际值 滑坡 359 48 407
      非滑坡 41 572 613
      合计 400 620 1 020
      准确率:0.912 7 精确率:0.897 5 召回率:0.882 1

      随机森林算法在滑坡预测方面应用广泛。为对比XGBoost与随机森林算法在滑坡隐患点识别模型中的精度,基于随机森林建立滑坡隐患点识别模型,模型的混淆矩阵如表 3所示。1 020个样本点中,898个样本点被正确分类,模型准确率为88.04%;在407个滑坡灾害隐患点中,被模型识别为滑坡的有319个,识别为非滑坡的有88个,召回率为78.38%;模型识别的353个滑坡灾害隐患点中,实际为滑坡的有319个,实际为非滑坡的有34个,精确率为90.37%。

      表 3  基于随机森林算法的滑坡灾害隐患点识别混淆矩阵

      Table 3.  Confusion Matrix for Identification of Hidden Danger Points ofLandslide Disasters Based on Random Forest Algorithm

      混淆矩阵 预测值
      滑坡 非滑坡 合计
      实际值 滑坡 319 88 407
      非滑坡 34 579 613
      合计 353 667 1 020
      准确率:0.880 4 精确率:0.903 7 召回率:0.783 8

      由于滑坡隐患点识别最重要的是将有可能发生滑坡的地点都识别出来,因此相对于精确率,召回率更为重要。对比结果表明,XGBoost的滑坡灾害隐患点识别模型准确率和召回率均高于随机森林算法。总体上,基于XGBoost的滑坡灾害隐患点识别模型可以获得较高的精度。

    • 1)特征共线性分析。特征的共线性是指自变量之间存在线性相关关系。分别计算所提取变量两两之间的皮尔逊相关系数(R),发现相关性最高的变量为建筑物面积和构筑物面积(R=0.684)。另外,除了林地面积和坡度、道路面积和构筑物面积、道路面积和建筑物面积外,其他变量之间的相关关系都小于0.600,总体上变量的共线性并不强。此外,对于基于决策树的模型来说,特征共线并不会对模型精度造成影响。

      2)特征贡献分析。因子的重要性程度可以反映因子对模型的解释度。计算各因子的重要性,结果如图 10所示。坡度的重要性最高,为0.352 3,表明坡度对滑坡的贡献程度最大。建筑物面积的重要性指数为0.08,这是因为建造房屋通常都会进行挖填,建筑物面积的大小在一定程度上决定了挖填面积的大小,这会导致周围地层或者地质构造的不稳定,造成岩体等稳定性的下降。耕地面积的重要性指数为0.056 3。耕地的存在会影响植被覆盖率,导致植被的固坡能力减弱。其他因子的重要度均低于0.05,对滑坡的贡献程度相对较小。

      图  10  湘西自治州滑坡影响因子特征重要性统计

      Figure 10.  Importance of the Factors Affecting Landslides

      影响因子可以归类为地形地貌因子、地质因子、土地覆盖因子、水文因子和人类活动因子。地形地貌因子包括坡度、坡向、曲率,其总的解释度为0.400 345。地形地貌因子是滑坡发生的内在影响因素。土地覆盖因子包括NDVI、耕地面积、林地面积和土壤湿度,总的解释度为0.143 92。植被覆盖率高,水土保持能力强,滑坡发生的可能性就低。水文因子包括河流和降雨,总的解释度为0.041 746,表明水文因子对滑坡的贡献程度小。地质因子总的解释度为0.046 393。人类活动因子包括与构筑物、建筑物、人工堆掘地、道路的距离等,总的解释度为0.101 923,人类活动如建造施工、道路施工等在一定程度上孕育着滑坡的发生。地质构造、水文、人类活动等多重因素影响湘西自治州滑坡的发生,境内北有湖北来凤县百福司-龙山洗洛大断裂破碎带斜穿湘西西北部,南有大涌-古丈-吉首-凤凰玉屏大断裂褶皱带斜穿湘西州东南部,岩溶沿走向发育,中部有多条断裂带横贯东西,多条断裂带斜穿,深大断层切割强烈;同时,河流多形成谷坡陡峻的“V”形河谷,喀斯特地貌发育,碳酸盐岩广泛分布;随着湘西经济的发展,人类活动也越来越频繁,道路修筑、建筑物修建易引起坡体或者岩体失稳。

    • 本文以中国湖南省湘西自治州为研究区域,分析了滑坡隐患点的空间分布特征,发现滑坡隐患点多分布于高程400~600 m、坡度3°~30°、坡向西北、曲率-0.6~1.4、植被覆盖低、土壤湿度高、人类活动干预明显的区域。基于XGBoost构建了滑坡隐患点识别模型,准确率达到91.27%,精确率和召回率分别达到89.75%和88.21%,准确率和召回率均高于随机森林算法,表明XGBoost在滑坡检测中可以达到较高的精度。通过对因子重要性的分析可知,坡度、建筑物面积、耕地面积是影响滑坡发生的最重要的3个因素。本文可为湘西自治州滑坡灾害的防治提供参考,为其他地区滑坡隐患点的识别及进一步进行滑坡易发性区划的划分提供技术支持。

参考文献 (48)

目录

    /

    返回文章
    返回