留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

利用随机森林回归算法校正ASTER GDEM高程误差

余婷婷 董有福

余婷婷, 董有福. 利用随机森林回归算法校正ASTER GDEM高程误差[J]. 武汉大学学报 ● 信息科学版, 2021, 46(7): 1098-1105. doi: 10.13203/j.whugis20190245
引用本文: 余婷婷, 董有福. 利用随机森林回归算法校正ASTER GDEM高程误差[J]. 武汉大学学报 ● 信息科学版, 2021, 46(7): 1098-1105. doi: 10.13203/j.whugis20190245
YU Tingting, DONG Youfu. Correcting Elevation Error of ASTER GDEM Using Random Forest Regression Algorithm[J]. Geomatics and Information Science of Wuhan University, 2021, 46(7): 1098-1105. doi: 10.13203/j.whugis20190245
Citation: YU Tingting, DONG Youfu. Correcting Elevation Error of ASTER GDEM Using Random Forest Regression Algorithm[J]. Geomatics and Information Science of Wuhan University, 2021, 46(7): 1098-1105. doi: 10.13203/j.whugis20190245

利用随机森林回归算法校正ASTER GDEM高程误差

doi: 10.13203/j.whugis20190245
基金项目: 

国家自然科学基金 41131360

国家自然科学基金 41871324

详细信息
    作者简介:

    余婷婷,硕士,主要研究方向为数字高程模型不确定性。15850736616@163.com

    通讯作者: 董有福,博士,教授。dongyoufu@163.com
  • 中图分类号: P208

Correcting Elevation Error of ASTER GDEM Using Random Forest Regression Algorithm

Funds: 

The National Natural Science Foundation of China 41131360

The National Natural Science Foundation of China 41871324

More Information
    Author Bio:

    YU Tingting, master, specializes in digital elevation model uncertainty. E-mail: 15850736616@163.com

    Corresponding author: DONG Youfu, PhD, professor. E-mail: dongyoufu@163.com
  • 摘要: 通过构建ASTER GDEM(advanced spaceborne thermal emission and reflection radiometer global digital elevation model)高程误差与影响因子间的关系模型,可对其高程精度进行有效校正。选取陕北黄土高原境内长武、宜君、甘泉、延川4个不同地貌类型的样区,以1∶5万DEM (digital elevation model)作为参考数据,经过数据预处理后,计算各点位高程误差值及相关地形因子和地表覆盖指数; 提取一定数量的采样点和检验点,引入随机森林回归算法,建立高程误差预测模型,以对高程精度进行校正,并与多元回归模型进行比较分析。实验结果表明,ASTER GDEM的高程误差特征与地形条件有较强的相关性; 随机森林回归预测模型整体上优于多元回归模型,具有较好的适用性与误差校正效果,可分别将长武、宜君、甘泉、延川的高程误差均值减小3.08 m、3.00 m、3.61 m和6.95 m。
  • 图  1  实验流程图

    Figure  1.  Process for the Experiment

    图  2  ASTER GDEM高程误差空间分布图

    Figure  2.  Spatial Distribution Maps for ASTER GDEM Elevation Error

    图  3  高程误差密度曲线图

    Figure  3.  Density Curve of Elevation Error

    图  4  实验样区决策树个数-误差图

    Figure  4.  Plots of Decision-Tree Number and Error in Sample Areas

    图  5  原始误差与预测误差密度曲线图

    Figure  5.  Density Curves of Original Errors and Prediction Errors

    表  1  ASTER GDEM高程误差统计值/m

    Table  1.   Statistics of ASTER GDEM Elevation Error/m

    样区 最小值 1/4分位数 中位数 平均值 3/4分位数 最大值 标准差 RMSE
    长武 -70 -7 -2 -1.68 3 84 15.04 15.13
    宜君 -59 -3 6 4.88 14 66 15.79 16.52
    甘泉 -65 -16 -5 -5.35 5 55 15.85 16.76
    延川 -88 -9 6 5.42 21 98 23.30 23.92
    下载: 导出CSV

    表  2  6种变量的节点不纯度平均减少值

    Table  2.   Mean Reduction Values in Node Purity for Six Variables

    样区 节点不纯度平均减少值/105
    坡度 坡向 TPI TRI 森林覆盖率 土地利用类型
    长武 0.71 1.50 0.67 0.56 0.55 0.23
    宜君 0.72 2.04 0.85 0.58 0.48 0.22
    甘泉 0.59 2.20 0.77 0.44 0.53 0.04
    延川 1.28 4.72 1.71 0.89 0.98 0.29
    下载: 导出CSV

    表  3  RFR模型预测精度

    Table  3.   Prediction Accuracies of RFR Model

    样区 RMSE/m MAE/m R2
    长武 5.08 3.54 0.88
    宜君 5.68 4.23 0.87
    甘泉 6.16 4.70 0.85
    延川 9.00 6.85 0.85
    下载: 导出CSV

    表  4  RFR模型验证结果

    Table  4.   Verification Results of RFR Model

    样区 验证集样本数 t-value p-value 原始误差均值/m 预测误差均值/m 误差均值差/m 原始误差RMSE/m 预测误差RMSE/m RMSE差值/m
    长武 885 10.35 < 2.2×10-16 10.53 7.45 3.08 15.63 10.81 4.82
    宜君 885 9.89 < 2.2×10-16 12.39 9.39 3.00 16.04 11.64 4.40
    甘泉 885 10.92 < 2.2×10-16 13.28 9.67 3.61 16.86 12.05 4.81
    延川 885 15.37 < 2.2×10-16 19.79 12.84 6.95 24.53 15.20 9.33
    下载: 导出CSV

    表  5  RFR模型与多元回归模型的比较

    Table  5.   Comparison Between RFR Model and Multiple Regression Model

    样区 R2 预测RMSE/m
    RFR模型 多元回归模型 RFR模型 多元回归模型
    长武 0.88 0.52 10.89 11.13
    宜君 0.87 0.47 11.64 11.62
    甘泉 0.85 0.48 12.05 12.73
    延川 0.85 0.45 15.20 16.39
    下载: 导出CSV
  • [1] Florinsky I V, Skrypitsyna T N, Luschikova O S. Comparative Accuracy of the AW3D30 DSM, ASTER GDEM, and SRTM1 DEM: A Case Study on the Zaoksky Testing Ground, Central European Russia[J]. Remote Sensing Letters, 2018, 9(7): 706-714 doi:  10.1080/2150704X.2018.1468098
    [2] 张品, 申重阳, 杨光亮, 等. ASTER GDEM垂直精度评价及其在重力地形改正中的适用性[J]. 大地测量与地球动力学, 2015, 35(2): 318-321, 330 https://www.cnki.com.cn/Article/CJFDTOTAL-DKXB201502033.htm

    Zhang Pin, Shen Chongyang, Yang Guangliang, et al. Vertical Accuracy Evaluation of ASTER GDEM and Its Applicability in Gravity Terrain Correction[J]. Journal of Geodesy and Geodynamics, 2015, 35(2): 318-321, 330 https://www.cnki.com.cn/Article/CJFDTOTAL-DKXB201502033.htm
    [3] 苟娇娇, 罗明良, 王飞. 影响黄土高原集水面积阈值的地形因子主成分分析[J]. 武汉大学学报·信息科学版, 2017, 42(5): 704-710 doi:  10.13203/j.whugis20140783

    Gou Jiaojiao, Luo Mingliang, Wang Fei. Principal Component Analysis for the Terrain Factors of Flow Accumulation Threshold in Loess Plateau[J]. Geomatics and Information Science of Wuhan University, 2017, 42(5): 704-710 doi:  10.13203/j.whugis20140783
    [4] 郑买红, 胡文英, 吴风志. 基于OLI和ASTER GDEM数据的云南昌宁县滑坡、泥石流易发度评价[J]. 云南地理环境研究, 2018, 30(3): 40-46 doi:  10.3969/j.issn.1001-7852.2018.03.006

    Zheng Maihong, Hu Wenying, Wu Fengzhi. Evaluation of Landslide and Debris Flow in Changning County, Yunnan Based on OLI and ASTER GDEM Data[J]. Yunnan Geographic Environment Research, 2018, 30(3): 40-46 doi:  10.3969/j.issn.1001-7852.2018.03.006
    [5] 沈焕锋, 刘露, 岳林蔚, 等. 多源DEM融合的高差拟合神经网络方法[J]. 测绘学报, 2018, 47(6): 854-863 https://www.cnki.com.cn/Article/CJFDTOTAL-CHXB201806019.htm

    Shen Huanfeng, Liu Lu, Yue Linwei, et al. High Difference Fitting Neural Network Method for Multisource DEM Fusion[J]. Acta Geodaetica et Cartographica Sinica, 2018, 47(6): 854-863 https://www.cnki.com.cn/Article/CJFDTOTAL-CHXB201806019.htm
    [6] 谢翠贞. 基于SRTM3 DEM与ASTER GDEM的DEM融合方法研究[D]. 南昌: 东华理工大学, 2015

    Xie Cuizhen. Research on DEM Fusion Method Based on SRTM3 DEM and ASTER GDEM[D]. Nanchang: Donghua University of Technology, 2015
    [7] 赵海涛, 张兵, 左正立, 等. 中国及周边区域ASTER GDEM与SRTM DEM高程对比分析及互补修复[J]. 测绘科学, 2012, 37(1): 8-11 https://www.cnki.com.cn/Article/CJFDTOTAL-CHKD201201003.htm

    Zhao Haitao, Zhang Bing, Zuo Zhengli, et al. Comparative Analysis and Complementary Repair of ASTER GDEM and SRTM DEM Elevations in China and Surrounding Areas[J]. Science of Surveying and Mapping, 2012, 37(1): 8-11 https://www.cnki.com.cn/Article/CJFDTOTAL-CHKD201201003.htm
    [8] 罗学彬, 李国明, 赵登文, 等. 基于SRTM DEM的ASTER GDEM数据修复方法研究[J]. 价值工程, 2017, 36(30): 187-189 https://www.cnki.com.cn/Article/CJFDTOTAL-JZGC201730079.htm

    Luo Xuebin, Li Guoming, Zhao Dengwen, et al. Research on Data Repair Method of ASTER GDEM Based on SRTM DEM[J]. Value Engineering, 2017, 36(30): 187-189 https://www.cnki.com.cn/Article/CJFDTOTAL-JZGC201730079.htm
    [9] 张朝忙, 刘庆生, 刘高焕, 等. SRTM3与ASTER G-DEM数据处理及应用进展[J]. 地理与地理信息科学, 2012, 28(5): 29-34 https://www.cnki.com.cn/Article/CJFDTOTAL-DLGT201205008.htm

    Zhang Chaomang, Liu Qingsheng, Liu Gaohuan, et al. Progress in Data Processing and Application of SRTM3 and ASTER GDEM[J]. Geography and GeoInformation Science, 2012, 28(5): 29-34 https://www.cnki.com.cn/Article/CJFDTOTAL-DLGT201205008.htm
    [10] 惠珊, 李远华. 回归与内插法处理ASTER GDEM数据异常值的研究[J]. 科学技术与工程, 2012, 12(22): 5 455-5 459 https://www.cnki.com.cn/Article/CJFDTOTAL-KXJS201222009.htm

    Hui Shan, Li Yuanhua. Research on Regression and Interpolation Method for Processing Outliers of ASTER GDEM Data[J]. Science Technology and Engineering, 2012, 12(22): 5 455-5 459 https://www.cnki.com.cn/Article/CJFDTOTAL-KXJS201222009.htm
    [11] 杜小平, 郭华东, 范湘涛, 等. 基于ICESat/GLAS数据的中国典型区域SRTM与ASTER GDEM高程精度评价[J]. 地球科学——中国地质大学学报, 2013, 38(4): 887-897 https://www.cnki.com.cn/Article/CJFDTOTAL-DQKX201304023.htm

    Du Xiaoping, Guo Huadong, Fan Xiangtao, et al. Evaluation of Elevation Accuracy of SRTM and ASTER GDEM in Typical Regions of China Based on ICESat/GLAS Data[J]. Earth ScienceJournal of China University of Geosciences, 2013, 38(4): 887-897 https://www.cnki.com.cn/Article/CJFDTOTAL-DQKX201304023.htm
    [12] 胡加佩, 关小荣, 刘学军. 中国区域SRTM DEM与ASTER GDEM误差空间分布特征[J]. 地理与地理信息科学, 2017, 33(4): 28-33 doi:  10.3969/j.issn.1672-0504.2017.04.005

    Hu Jiapei, Guan Xiaorong, Liu Xuejun. The Spatial Distribution Characteristics of SRTM DEM and ASTER GDEM Errors in China[J]. Geography and GeoInformation Science, 2017, 33(4): 28-33 doi:  10.3969/j.issn.1672-0504.2017.04.005
    [13] Satgé F, Bonnet M P, Timouk F, et al. Accuracy Assessment of SRTM v4 and ASTER GDEM v2 over the Altiplano Watershed Using ICESat/GLAS Data[J]. International Journal of Remote Sensing, 2015, 36(2): 465-488 doi:  10.1080/01431161.2014.999166
    [14] Gesch D, Oimoen M, Danielson J, et al. Validation of the ASTER Global Digital Elevation Model Version 3 over the Conterminous United States[J]. The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2016(XLI-B4): 143-148
    [15] Tadono T, Takaku J, Shimada M. Validation Study on ALOS PRISM DSM MOSAIC and ASTER GDEM2[J]. ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2012(I-4): 193-198 http://adsabs.harvard.edu/abs/2012ISPAn..I4..193T
    [16] 李振林, 王晶. ASTER GDEM与实测数据精度对比及其影响因素分析[J]. 测绘与空间地理信息, 2013, 36(11): 150-153 doi:  10.3969/j.issn.1672-5867.2013.11.047

    Li Zhenlin, Wang Jing. Analysis of Accuracy Comparison Between ASTER GDEM and Measured Data and Its Influencing Factors[J]. Surveying and Spatial Geography Information, 2013, 36(11): 150-153 doi:  10.3969/j.issn.1672-5867.2013.11.047
    [17] 赵国松, 杜耘, 凌峰, 等. ASTER GDEM与SRTM3高程差异影响因素分析[J]. 测绘科学, 2012, 37(4): 167-170 https://www.cnki.com.cn/Article/CJFDTOTAL-CHKD201204057.htm

    Zhao Guosong, Du Yun, Ling Feng, et al. Analysis of Factors Affecting the Difference of ASTER GDEM and SRTM3 Elevation[J]. Science of Surveying and Mapping, 2012, 37(4): 167-170 https://www.cnki.com.cn/Article/CJFDTOTAL-CHKD201204057.htm
    [18] 张玉伦, 王叶堂. 低山丘陵区多源数字高程模型误差分析[J]. 遥感技术与应用, 2018, 33(6): 1 112-1 121 https://www.cnki.com.cn/Article/CJFDTOTAL-YGJS201806014.htm

    Zhang Yulun, Wang Yetang. Error Analysis of Multisource Digital Elevation Model in Low Mountain and Hilly Area[J]. Remote Sensing Technology and Application, 2018, 33(6): 1 112-1 121 https://www.cnki.com.cn/Article/CJFDTOTAL-YGJS201806014.htm
    [19] Dong Youfu, Shortridge A M. A Regional ASTER GDEM Error Model for the Chinese Loess Plateau[J]. International Journal of Remote Sensing, 2019, 40(3): 1 048-1 065 doi:  10.1080/01431161.2018.1524171
    [20] Luana Shaopeng, Hou Xiyong, Wang Yetang. Assessing the Accuracy of SRTM DEM and ASTER GDEM Datasets for the Coastal Zone of Shandong Province, Eastern China[J]. Polish Maritime Research, 2015, 22(s1): 15-20 doi:  10.1515/pomr-2015-0026
    [21] Breiman L. Random Forests[J]. Machine Learning, 2001, 45(1): 5-32 doi:  10.1023/A:1010933404324
    [22] Suwandana E, Kawamura K, Sakuno Y, et al. Thematic Information Content Assessment of the ASTER GDEM: A Case Study of Watershed Delineation in West Java, Indonesia[J]. Remote Sensing Letters, 2012, 3(5): 423-432 doi:  10.1080/01431161.2011.593580
    [23] Zhang Quan, Yang Qinke, Wang Chunmei. SRTM Error Distribution and Its Associations with Landscapes Across China[J]. Photogrammetric Engineering & Remote Sensing, 2016, 82(2): 135-148 http://www.sciencedirect.com/science/article/pii/S0099111216300416
    [24] 马延慈, 明艳芳, 王凯, 等. 基于高分辨率人工识别地表类型的GlobeLan-d30产品精度评价[J]. 山东科技大学学报(自然科学版), 2018, 37(5): 1-10, 26 https://www.cnki.com.cn/Article/CJFDTOTAL-SDKY201805001.htm

    Ma Yanci, Ming Yanfang, Wang Kai, et al. Accuracy Evaluation of GlobeLand30 Products Based on High Resolution Artificial Recognition of Surface Types[J]. Journal of Shandong University of Science and Technology (Natural Science Edition), 2018, 37(5): 1-10, 26 https://www.cnki.com.cn/Article/CJFDTOTAL-SDKY201805001.htm
    [25] 郭海荣, 焦文海, 杨元喜. 1985国家高程基准与全球似大地水准面之间的系统差及其分布规律[J]. 测绘学报, 2004, 33(2): 100-104 doi:  10.3321/j.issn:1001-1595.2004.02.002

    Guo Hairong, Jiao Wenhai, Yang Yuanxi. The Systematic Difference and Its Distribution Between the 1985 National Height Datum and the Global Quasigeoid[J]. Acta Geodaetica et Cartographica Sinica, 2004, 33(2): 100-104 doi:  10.3321/j.issn:1001-1595.2004.02.002
    [26] Shortridge A, Messina J. Spatial Structure and Landscape Associations of SRTM Error[J]. Remote Sensing of Environment, 2011, 115(6): 1 576-1 587 doi:  10.1016/j.rse.2011.02.017
    [27] Kabacoff R I. R语言实战[M]. 北京: 人民邮电出版社, 2016

    Kabacoff R I. R in Action[M]. Beijing: Posts & Telecom Press, 2016
  • [1] 李平湘, 刘致曲, 杨杰, 孙维东, 黎旻懿, 任烨仙.  利用随机森林回归进行极化SAR土壤水分反演 . 武汉大学学报 ● 信息科学版, 2019, 44(3): 405-412. doi: 10.13203/j.whugis20160531
    [2] 刘坚, 李树林, 陈涛.  基于优化随机森林模型的滑坡易发性评价 . 武汉大学学报 ● 信息科学版, 2018, 43(7): 1085-1091. doi: 10.13203/j.whugis20160515
    [3] 陈传法, 闫长青, 刘凤英, 赵娜, 刘国林.  一种综合考虑采样点水平和高程误差的DEM建模算法 . 武汉大学学报 ● 信息科学版, 2018, 43(5): 739-744. doi: 10.13203/j.whugis20150695
    [4] 张泉, 杨勤科, 程洁, 王春梅.  中国地区3"SRTM高程误差特征 . 武汉大学学报 ● 信息科学版, 2018, 43(5): 684-690. doi: 10.13203/j.whugis20160347
    [5] 孙晗伟, 曾涛, 杨健, 李文梅.  SAR残余相位误差对森林高度反演影响的全链路模拟与分析 . 武汉大学学报 ● 信息科学版, 2015, 40(2): 153-158.
    [6] 姚宜斌, 孔建.  顾及设计矩阵随机误差的最小二乘组合新解法 . 武汉大学学报 ● 信息科学版, 2014, 39(9): 1028-1032. doi: 10.13203/j.whugis20130030
    [7] 王雷, 杨勤科, 王春梅, 龙永清.  采样数据密度及栅格尺寸对高程中误差的影响分析 . 武汉大学学报 ● 信息科学版, 2012, 37(3): 366-369.
    [8] 陈磊, 彭军还.  随机游动模型下系统误差补偿算法研究 . 武汉大学学报 ● 信息科学版, 2012, 37(5): 586-589.
    [9] 吴艳兰, 胡海, 胡鹏, 庞小平.  数字高程模型误差及其评价的问题综述 . 武汉大学学报 ● 信息科学版, 2011, 36(5): 568-574.
    [10] 王耀革, 朱长青, 王志伟.  数字高程模型(DEM)的整体误差分析 . 武汉大学学报 ● 信息科学版, 2009, 34(12): 1467-1470.
    [11] 林雪原.  双星定位系统的综合误差分析与仿真 . 武汉大学学报 ● 信息科学版, 2009, 34(9): 1110-1112.
    [12] 覃文忠, 王建梅, 刘妙龙.  混合地理加权回归模型算法研究 . 武汉大学学报 ● 信息科学版, 2007, 32(2): 115-119.
    [13] 汤仲安, 史文中.  矢量GIS平面随机线元等概率密度误差模型的概率算法 . 武汉大学学报 ● 信息科学版, 2006, 31(8): 736-739.
    [14] 林雪原, 何友, 张力.  高程误差对双星定位系统定位精度的影响研究 . 武汉大学学报 ● 信息科学版, 2005, 30(12): 1039-1043.
    [15] 汤仲安, 王新洲, 纪现华.  矢量GIS平面随机线元误差模型建模机理 . 武汉大学学报 ● 信息科学版, 2004, 29(11): 968-972.
    [16] 张兴福, 沈云中.  GPS高程异常拟合的降维处理算法 . 武汉大学学报 ● 信息科学版, 2003, 28(S1): 97-99.
    [17] 张景雄, 杜道生, 孙家抦.  用随机模拟方法建立矢量数据的误差模型 . 武汉大学学报 ● 信息科学版, 2000, 25(1): 49-54.
    [18] 许才军.  随机模型误差对函数模型选择的影响 . 武汉大学学报 ● 信息科学版, 1992, 17(3): 36-42.
    [19] 朱光.  陀螺经纬仪观测误差的随机模型 . 武汉大学学报 ● 信息科学版, 1988, 13(3): 7-14.
    [20] 周忠谟, 时京, 刘乃苓.  大地高程误差对卫星网与地面网联合平差的影响 . 武汉大学学报 ● 信息科学版, 1985, 10(1): 1-10.
  • 加载中
图(5) / 表(5)
计量
  • 文章访问数:  601
  • HTML全文浏览量:  207
  • PDF下载量:  71
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-10-10
  • 刊出日期:  2021-07-10

利用随机森林回归算法校正ASTER GDEM高程误差

doi: 10.13203/j.whugis20190245
    基金项目:

    国家自然科学基金 41131360

    国家自然科学基金 41871324

    作者简介:

    余婷婷,硕士,主要研究方向为数字高程模型不确定性。15850736616@163.com

    通讯作者: 董有福,博士,教授。dongyoufu@163.com
  • 中图分类号: P208

摘要: 通过构建ASTER GDEM(advanced spaceborne thermal emission and reflection radiometer global digital elevation model)高程误差与影响因子间的关系模型,可对其高程精度进行有效校正。选取陕北黄土高原境内长武、宜君、甘泉、延川4个不同地貌类型的样区,以1∶5万DEM (digital elevation model)作为参考数据,经过数据预处理后,计算各点位高程误差值及相关地形因子和地表覆盖指数; 提取一定数量的采样点和检验点,引入随机森林回归算法,建立高程误差预测模型,以对高程精度进行校正,并与多元回归模型进行比较分析。实验结果表明,ASTER GDEM的高程误差特征与地形条件有较强的相关性; 随机森林回归预测模型整体上优于多元回归模型,具有较好的适用性与误差校正效果,可分别将长武、宜君、甘泉、延川的高程误差均值减小3.08 m、3.00 m、3.61 m和6.95 m。

English Abstract

余婷婷, 董有福. 利用随机森林回归算法校正ASTER GDEM高程误差[J]. 武汉大学学报 ● 信息科学版, 2021, 46(7): 1098-1105. doi: 10.13203/j.whugis20190245
引用本文: 余婷婷, 董有福. 利用随机森林回归算法校正ASTER GDEM高程误差[J]. 武汉大学学报 ● 信息科学版, 2021, 46(7): 1098-1105. doi: 10.13203/j.whugis20190245
YU Tingting, DONG Youfu. Correcting Elevation Error of ASTER GDEM Using Random Forest Regression Algorithm[J]. Geomatics and Information Science of Wuhan University, 2021, 46(7): 1098-1105. doi: 10.13203/j.whugis20190245
Citation: YU Tingting, DONG Youfu. Correcting Elevation Error of ASTER GDEM Using Random Forest Regression Algorithm[J]. Geomatics and Information Science of Wuhan University, 2021, 46(7): 1098-1105. doi: 10.13203/j.whugis20190245
  • 先进星载热发射和反射辐射仪全球数字高程模型(advanced spaceborne thermal emission and reflection radiometer global digital elevation model,ASTER GDEM)[1]具有数据获取免费、覆盖范围广、精度较高的优势,已成功应用于地学相关领域[2-4],广大学者对其高程精度进行了大量研究。对于数据空洞修补,学者们提出了多源数字高程模型(digital elevation model,DEM)融合法[5-7]、直接内插法[8-9]、回归与内插法[10]; 在误差特征方面,一些学者对不同区域的高程误差分布规律进行了研究,结果表明,ASTER GDEM的高程精度具有明显的区域差异[11-15]; 对于误差影响因素,现有研究表明,坡度、森林覆盖率和植被覆盖度等对ASTER GDEM的高程误差影响明显,坡向和土地利用类型等对高程误差也有不同程度的影响[16-18]。此外,部分学者通过建立误差与地形参数、植被因子间的回归模型[19-20]来校正ASTER GDEM的高程误差,在不同程度上提高了其数据精度。综上所述,现有对ASTER GDEM的高程精度研究主要集中在误差分布规律及其影响因素方面,少量学者通过传统线性回归模型校正其高程误差,但由于误差影响因子间存在共线性或者交互作用,使得传统回归模型训练时间长、速度慢、模型适用性减弱。Breiman提出的随机森林法可以同时处理连续和离散属性,具有训练速度快、防止过度拟合、抗噪性和模型泛化能力强等优点[21]。因此,本文利用随机森林回归(random forest regression,RFR)算法对ASTER GDEM的高程误差进行建模研究。考虑到坡度、坡向、森林覆盖率和土地利用类型与ASTER GDEM的高程误差值具有强相关性[16-18],同时结合反映高程点在局部范围内相对位置关系的地形位置指数(topographic position index,TPI)和局部地形异质性程度的地形耐用指数(terrain ruggedness index,TRI),其对ASTER GDEM高程误差具有显著影响[19],本文选取上述6种因子作为响应变量来构建RFR模型,以对ASTER GDEM高程误差进行预测和分析验证。

    • 选取陕北黄土高原境内长武、宜君、甘泉和延川4个典型的黄土地貌类型样区,每个样区面积约为400 km2,从南到北地貌类型呈现有序变化,地形逐渐趋于破碎。长武为黄土塬地貌,海拔893~1 233 m,平均坡度10°,地形平缓,但也相间分布着切割深度较深的沟; 宜君为黄土长梁残塬沟壑,海拔768~1 156 m,平均坡度14°,沟谷侵蚀剧烈; 甘泉为黄土梁状丘陵沟壑,海拔1 130~1 461 m,平均坡度18°,地势起伏较大; 延川属黄土梁峁状丘陵沟壑区,海拔923~1 254 m,平均坡度20°,地势起伏明显。

    • 本文的实验数据主要包括4种类型:(1)ASTER GDEM数据作为研究对象,分辨率为30 m,采用WGS84坐标系和EGM96高程基准,标称平面精度为±30 m,高程精度为±20 m[22]; (2)国家地理信息中心生产的1∶5万DEM(25 m分辨率)作为参考数据,采用1980国家大地坐标系和1985国家高程基准,在平坦区高程误差不超过4 m,在丘陵山区高程误差不超过7 m[23]; (3)2010年MODIS遥感影像,用于获取森林覆盖率数据,250 m空间分辨率; (4)GlobeLand30土地覆盖数据,用于获取土地利用类型,30 m空间分辨率[24],它是由国家基础地理信息中心应用2010年Landsat影像生成的。

    • 考虑到上述不同类型的数据源坐标系统、投影系统以及空间分辨率存在差异,因此先对源数据进行变换和处理:(1)将1∶5万参考DEM数据转换为WGS84坐标系,同时将其分辨率重采样为30 m,从而与ASTER GDEM匹配; (2)在中国境内,EGM96与1985国家高程基准偏差均值约为0.35 m,并且偏差值从东到西、从南至北逐渐增大,考虑到实验样区基本位于中国中心位置,实验中将参考DEM统一加入0.35 m进行高程值校正[25]; (3)考虑到参考DEM与ASTER GDEM水平位置存在位移差,应用全局拟合法[26]将前者向东、向南分别平移3个和2个栅格,使其与后者在水平方向上对齐。通过上述处理,就可以实现ASTER GDEM与参考DEM坐标统一以及空间位置的相互匹配。

      在上述数据预处理的基础上,将ASTER GDEM的高程值减去参考DEM的高程值,得到误差值,从ASTER GDEM中提取每个点位上的坡度、坡向、TPI、TRI参数值,同时获取土地覆盖类型和森林覆盖率数据。

    • 随机森林模型是一种基于决策树的组合模型,如果因变量为分类变量,则建立分类判别模型; 如果因变量为连续变量,则建立多元非线性回归模型。本文响应变量为连续变量,所以应构建回归预测模型。

      RFR模型的建立过程如下:首先利用Bagging思想,有放回地随机抽取N个样本; 然后在每一个节点随机抽取m个变量(m < MM为训练集自变量的总数),将其作为分割该节点的候选变量,构建单棵决策树; 重复上述步骤,生成大量回归决策树。模型的最终预测结果为大量回归决策树预测结果的平均值。

      在模型建立过程中,决策树节点处变量选择的计算原则是均方差最小,即对于任意划分的变量A,对应的任意划分点s两边划分的数据集为D1D2,求出使D1D2各自集合的均方差最小,同时D1D2的均方差之和最小所对应的变量和变量值划分点。表达式为:

      $$ \underset{A, s}{\underset{⏟}{\mathrm{m}\mathrm{i}\mathrm{n}}}\left[\underset{{c}_{1}}{\underset{⏟}{\mathrm{m}\mathrm{i}\mathrm{n}}}{\sum\limits_{{x}_{i}\in {D}_{1}(A, s)}\left({y}_{i}-{c}_{1}\right)}^{2}+\underset{{c}_{2}}{\underset{⏟}{\mathrm{m}\mathrm{i}\mathrm{n}}}{\sum\limits_{{x}_{i}\in {D}_{2}(A, s)}\left({y}_{i}-{c}_{2}\right)}^{2}\right] $$ (1)

      式中,xi为特征属性; yi为样本真实值; c1D1数据集的样本输出均值; c2D2数据集的样本输出均值。

    • 本文实验流程如图 1所示。

      图  1  实验流程图

      Figure 1.  Process for the Experiment

    • 考虑到实验样区范围较大,本文在4个实验样区内分别随机采样2 948个点,并按70%和30%的比例将样本单元划分为两组,其中2 063个点为训练样本,用于预测模型,885个点为验证样本。以选取的6种因子作为自变量,对高程误差值建立回归预测模型。

    • 在RFR模型构建过程中,最重要的两个参数是决策树的个数(ntree)和特征属性的个数(mtry)。回归预测模型中默认的特征属性个数为总变量的1/3,但一般需要进行人为逐次挑选,确定最佳值。通过多次实验得到在不同特征属性参数下模型的均方根误差(root mean square error,RMSE)、平均绝对误差(mean absolute error,MAE)和模型决定系数(R2),以RMSE和MAE越小、R2越大的原则确定最优特征属性的个数。决策树的个数可根据决策树个数-误差图得到,当决策树的个数达到某个值后,模型的误差随着个数的增加保持较稳定的状态。其中,误差是指袋外预测误差,即在生成树时没有用到的样本点的值由生成的树估计,并与其真实值比较得到的值。

    • 随机森林算法可以度量变量的重要性,即变量在模型预测中的贡献程度。各变量的重要性共有两个度量标准,一是使用精度平均减少值,二是采用节点不纯度(异质性)的平均减少值,值越大说明变量越重要[27]。本文采用第2个度量标准。其中,节点不纯度的计算原则为前文提到的最小均方差。

    • 对回归预测模型的评价是模型建立过程中必不可少的一步。本文以RMSE、MAE和R2这3个指标对模型的预测精度进行评价。其中,RMSE的表达式为:

      $$ \mathrm{R}\mathrm{M}\mathrm{S}\mathrm{E}=\sqrt{\frac{1}{m}\sum\limits_{i=1}^{m}({y}_{i}-{\stackrel{\wedge }{y}}_{i}{)}^{2}} $$ (2)

      式中,$ {y}_{i} $为样本真实值; $ {\stackrel{\wedge }{y}}_{i} $为模型预测值; m为样本总数。

    • 图 2反映了ASTER GDEM高程误差值的空间分布。可以看出,不同坡度、坡向区域的ASTER GDEM高程误差值差别明显。表 1是4个样区所有采样点的高程误差统计结果。从长武黄土塬到甘泉黄土梁状丘陵沟壑,地形逐渐趋于破碎,高程误差值标准差缓慢增大,从15.04 m增加到15.85 m,相比地形更为破碎的宜君和甘泉样区,长武样区的误差最大值和最小值数值更大,究其原因是因为长武样区主要为地势平坦的塬面,但同时也相间分布着切割深度较大的沟壑。地形最为破碎的延川样区,地形起伏大,其高程误差各项统计值都最大,平均值为5.42 m,标准差达到了23.30 m。

      图  2  ASTER GDEM高程误差空间分布图

      Figure 2.  Spatial Distribution Maps for ASTER GDEM Elevation Error

      表 1  ASTER GDEM高程误差统计值/m

      Table 1.  Statistics of ASTER GDEM Elevation Error/m

      样区 最小值 1/4分位数 中位数 平均值 3/4分位数 最大值 标准差 RMSE
      长武 -70 -7 -2 -1.68 3 84 15.04 15.13
      宜君 -59 -3 6 4.88 14 66 15.79 16.52
      甘泉 -65 -16 -5 -5.35 5 55 15.85 16.76
      延川 -88 -9 6 5.42 21 98 23.30 23.92

      图 3是每个样区对应的高程误差密度曲线。从图 3中可以看出,地形相对完整的长武样区,其高程误差密度曲线基本呈正态分布,绝大多数采样点误差值都相对较小; 样区地形复杂度逐渐上升的宜君和甘泉样区,其误差值相对较高的采样点数也逐渐增加。对于地形最为破碎的延川样区,其采样点高程误差密度曲线比较平缓,反映了不同高程误差区间的采样点个数差别并不显著。由此可见,ASTER GDEM高程精度特征与样区地形条件有密切关系。

      图  3  高程误差密度曲线图

      Figure 3.  Density Curve of Elevation Error

    • 根据RMSE和MAE越小、R2越大的原则,可以得到4个样区特征属性个数的最优值分别为:长武和宜君样区为3个,甘泉和延川样区为2个。根据决策树个数-误差图(图 4)得到决策树个数的最优值分别为:长武、宜君和甘泉样区为600个,延川样区为500个。从图 4也可以看出,决策树个数相同时,各个样区的模型袋外预测误差存在差异。长武样区的模型误差较低,宜君和甘泉仅次于长武,延川样区的模型误差最高,当决策树个数稳定时,其误差也达到了300 m左右。

      图  4  实验样区决策树个数-误差图

      Figure 4.  Plots of Decision-Tree Number and Error in Sample Areas

    • 以节点不纯度平均减少值为度量标准,计算得到4个实验样区的变量重要性如表 2所示。从表 2中可以看出,4个实验样区的随机森林回归预测模型中,坡向的贡献程度最大,是最重要的变量,土地覆盖类型的贡献程度相对最小。在较平坦的长武样区,TRI和森林覆盖率的贡献度相对较小。在宜君、甘泉和延川样区,TPI和坡度在模型建立中的贡献程度仅次于坡向。从纵向来看,随着地形复杂度的增加,各变量的节点不纯度平均减少值也逐渐增大,长武样区坡向节点不纯度平均减少值仅为1.50×105,而延川样区的坡向节点不纯度平均减少值高达4.72×105

      表 2  6种变量的节点不纯度平均减少值

      Table 2.  Mean Reduction Values in Node Purity for Six Variables

      样区 节点不纯度平均减少值/105
      坡度 坡向 TPI TRI 森林覆盖率 土地利用类型
      长武 0.71 1.50 0.67 0.56 0.55 0.23
      宜君 0.72 2.04 0.85 0.58 0.48 0.22
      甘泉 0.59 2.20 0.77 0.44 0.53 0.04
      延川 1.28 4.72 1.71 0.89 0.98 0.29
    • 在训练集上得到RFR预测模型的RMSE、MAE、R2结果如表 3所示。地形最平坦的长武样区的RMSE、MAE最小,R2也最大; 宜君和甘泉仅此之; 地形最破碎的延川样区的RMSE和MAE相对较大。整体来看,4个样区的R2达到80%以上,表明模型的拟合效果较好。

      表 3  RFR模型预测精度

      Table 3.  Prediction Accuracies of RFR Model

      样区 RMSE/m MAE/m R2
      长武 5.08 3.54 0.88
      宜君 5.68 4.23 0.87
      甘泉 6.16 4.70 0.85
      延川 9.00 6.85 0.85
    • 基于每个样区测试集数据,应用上述RFR误差预测模型计算预测误差值,并与ASTER GDEM原始误差值进行对比,表 4是RFR模型t检验结果。其中,t-value为t检验的值,p-value表示概率。考虑到正负误差值具有抵消效果,实验中将误差预测值和原始值的绝对值作为比较对象。从表 4可以看出,每个样区的误差预测值均值都显著低于原始误差均值,长武样区的误差均值降低了3.08 m,延川样区的误差均值降低了6.95 m。

      表 4  RFR模型验证结果

      Table 4.  Verification Results of RFR Model

      样区 验证集样本数 t-value p-value 原始误差均值/m 预测误差均值/m 误差均值差/m 原始误差RMSE/m 预测误差RMSE/m RMSE差值/m
      长武 885 10.35 < 2.2×10-16 10.53 7.45 3.08 15.63 10.81 4.82
      宜君 885 9.89 < 2.2×10-16 12.39 9.39 3.00 16.04 11.64 4.40
      甘泉 885 10.92 < 2.2×10-16 13.28 9.67 3.61 16.86 12.05 4.81
      延川 885 15.37 < 2.2×10-16 19.79 12.84 6.95 24.53 15.20 9.33

      图 5为4个样区所有采样点原始误差密度曲线与使用RFR模型预测误差密度曲线的对比图。从图 5可以看出,误差预测模型在各个样区都具有较好的修正效果,表现为误差值相对较小的样点比例明显增加,长武样区的增幅尤为显著; 同时,误差值较大的样点比例下降,其分布区间在不同样区存在差异。

      图  5  原始误差与预测误差密度曲线图

      Figure 5.  Density Curves of Original Errors and Prediction Errors

    • 为进一步验证RFR模型对ASTER GDEM高程误差的预测效果并综合评价模型性能,本文应用多元线性回归预测模型[19](简称多元回归模型)与RFR模型进行对比。先对每个样区基于同样的采样点构建高程误差多元回归模型,再对相同验证点的高程误差进行预测,在此基础上对两个模型的误差校正效果进行比较和分析。多元回归模型的表达式如下:

      $$ \text { error }=\mathrm{slp}+\mathrm{asp}+\mathrm{slp} \cdot \mathrm{asp}+\mathrm{TPI}+\text { modis } $$ (3)

      式中,slp、asp、TPI、modis分别指坡度、坡向变换量、地形位置指数、森林覆盖率。由于坡向在不同样区不同方向上对误差的影响具有差异,为获得更优的模型拟合效果,在长武、宜君、甘泉和延川样区对坡向分别沿155°、200°、200°、215°方向进行线性变换处理。

      表 5是RFR模型与多元回归模型高程误差预测结果的比较。从模型拟合度来看,RFR模型明显优于多元回归模型; 在预测误差均方根方面,长武、甘泉和延川样区RFR模型的预测RMSE低于多元回归模型,宜君样区RFR模型的预测RMSE为11.64 m,比多元回归模型大0.02 m,但在模型拟合度上大幅度提升了0.4。综合来看,RFR模型在ASTER GDEM误差预测问题上优于多元回归模型,并克服了变量交互性、易过度拟合等缺点。

      表 5  RFR模型与多元回归模型的比较

      Table 5.  Comparison Between RFR Model and Multiple Regression Model

      样区 R2 预测RMSE/m
      RFR模型 多元回归模型 RFR模型 多元回归模型
      长武 0.88 0.52 10.89 11.13
      宜君 0.87 0.47 11.64 11.62
      甘泉 0.85 0.48 12.05 12.73
      延川 0.85 0.45 15.20 16.39
    • 本文对陕北黄土高原典型地貌类型区的ASTER GDEM高程误差特征进行了分析,提取了误差影响因素,引入随机森林回归预测方法,构建了ASTER GDEM高程误差预测模型并进行了模型验证,主要结论如下:

      1) ASTER GDEM高程误差与地形特征密切相关,在地形相对完整的长武样区,高程中误差明显低于其标称精度20 m,同时绝大部分采样点的误差值都相对较小; 在地形相对破碎的宜君和甘泉样区,高程中误差低于其标称精度,具有较大误差值的采样点比例有所增加; 在地形最为复杂的延川样区,高程中误差比标称精度高将近3 m,不同误差值区间的采样点个数差别不明显。

      2) 在预测模型建立过程中,不同样区各个因子的贡献程度存在差异。整体来看,坡向重要性最大,土地覆盖类型的贡献程度最小。坡度、地形位置指数、地形耐用指数和森林覆盖率在各个样区表现出不同程度的贡献。在不同样区,同样重要的因子的贡献度随地形复杂度的增加而逐渐增大,长武样区坡向的贡献值仅为1.5×105,而延川样区的坡向贡献值高达4.72×105

      3) 不同地貌类型区,ASTER GDEM高程误差随机森林回归预测模型的决定系数达到80%以上,说明模型的拟合效果较好,但不同样区间模型的均方根误差和平均绝对误差存在差异。其中,长武样区这两个统计值最小,延川样区这两个统计值最大。对不同地形条件区域构建误差模型,可以提高模型的适用性和误差校正效果。在长武、宜君、甘泉和延川样区,可分别将误差均值减小3.08 m、3.00 m、3.61 m和6.95 m。

      为进一步验证RFR模型在ASTER GDEM高程误差预测问题上的优势,进而综合评价模型性能,应用文献[19]建立的多元回归模型进行了对比分析。结果发现,RFR模型整体上优于多元回归模型。

      本研究有助于深入了解陕北黄土高原不同地貌类型区的ASTER GDEM高程误差特征及其影响因素,同时可对不同地形条件的区域选用适宜的回归模型进行误差值的有效校正,进而提高ASTER GDEM数据的应用精度。

参考文献 (27)

目录

    /

    返回文章
    返回