留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

气溶胶光学厚度估测中的LASSO特征选择方法

韩波 李衡 王志波 崔晓晖

韩波, 李衡, 王志波, 崔晓晖. 气溶胶光学厚度估测中的LASSO特征选择方法[J]. 武汉大学学报 ● 信息科学版, 2018, 43(4): 536-541. doi: 10.13203/j.whugis20160014
引用本文: 韩波, 李衡, 王志波, 崔晓晖. 气溶胶光学厚度估测中的LASSO特征选择方法[J]. 武汉大学学报 ● 信息科学版, 2018, 43(4): 536-541. doi: 10.13203/j.whugis20160014
HAN Bo, LI Heng, WANG Zhibo, CUI Xiaohui. A Feature Selection Approach via LASSO for Aerosol Optical Thickness Estimation[J]. Geomatics and Information Science of Wuhan University, 2018, 43(4): 536-541. doi: 10.13203/j.whugis20160014
Citation: HAN Bo, LI Heng, WANG Zhibo, CUI Xiaohui. A Feature Selection Approach via LASSO for Aerosol Optical Thickness Estimation[J]. Geomatics and Information Science of Wuhan University, 2018, 43(4): 536-541. doi: 10.13203/j.whugis20160014

气溶胶光学厚度估测中的LASSO特征选择方法

doi: 10.13203/j.whugis20160014
基金项目: 

国家自然科学基金 U1531122

国家自然科学基金 61272272

国家自然科学基金 61440054

湖北省自然科学基金 2014CFA048

湖北省自然科学基金 2015CFA058

中央高校基本科研业务费专项资金 216-410500012

详细信息
    作者简介:

    韩波, 博士, 副教授, 主要从事数据挖掘方法与应用的研究。bhan@whu.edu.cn

    通讯作者: 崔晓辉, 博士, 教授。xcui@whu.edu.cn
  • 中图分类号: P237

A Feature Selection Approach via LASSO for Aerosol Optical Thickness Estimation

Funds: 

The National Natural Science Foundation of China U1531122

The National Natural Science Foundation of China 61272272

The National Natural Science Foundation of China 61440054

the Natural Science Foundation of Hubei Province 2014CFA048

the Natural Science Foundation of Hubei Province 2015CFA058

the Basic Scientific Research Funding for the Central University 216-410500012

More Information
    Author Bio:

    HAN Bo, PhD, associate professor, specializes in data mining.E-mail: bhan@whu.edu.cn

    Corresponding author: CUI Xiaohui, PhD, professor. E-mail: xcui@whu.edu.cn
  • 摘要: 气溶胶光学厚度估测中通常利用遥感信息构造的多种特征属性作为输入,然而,这些属性中常常存在数据噪音、相互关联性和缺失值,从而降低了估测精度和估测强健性。针对这个问题,基于最小绝对收缩和选择算子(least absolute shrinkage selection operator,LASSO)方法和气溶胶光学厚度反演的先验知识,提出了一种针对遥感卫星观测的高维数据进行特征选择的方法,利用2009年4月2日至2011年4月1日2 a间与全球197个气溶胶地基自动观测网站点时空同步的MODIS(moderate-resolution imaging spectroradiometer)遥感数据,采用常用的人工神经网络作为估测模型进行实验分析,表明该方法能结合反演先验知识对多种异质遥感属性进行分组,通过组间迭代保留关键特征,去除冗余属性,有效进行特征选择,从而显著提高气溶胶光学厚度的估测精度。
  • 图  1  基于MODIS AOT反演值及以不同特征属性集合为BP神经网络模型输入的估测结果散点图比较

    Figure  1.  Comparison of Scattering-Plots Between MODIS AOTs and Estimations with Different Inputs

    表  1  构造的46个特征属性

    Table  1.   46 Constructed Features

    属性编号 标记 解释
    1~14 Ref_1~Ref_7,
    STD_Ref_1~STD_Ref_7
    与AOT有关的7个波段(0.47~2.1 μm)在空间单元范围内的辐射亮度均值与方差
    15~20 Surf_Ref_1~Surf_Ref_3
    STD_SurRef_1~STD_SurRef_3
    在空间单元范围内的3个地表反射均值及方差
    21~22 Solar_Z, Solar_A 太阳天顶角、太阳方位角
    23~24 Sensor_Z, Zensor_A 传感器天顶角、传感器方位角
    25~27 NDVIswir, NDVIswir2, STD_NDVIswir VIS/SWIR表面反射率比参数均值及方差
    28~32 Land, Costal, Desert, Water,
    Land_only_flag
    在水上、岸边、沙漠及陆地的像素比例及
    全部在陆地的标记
    33~35 A_alt, M_alt, STD_M_alt AERONET站点检测的海拔高度,MODIS检测的空间单元范围内海拔高度均值及方差
    36~38 Dist1~Dist3 空间单元中心点到全球3个典型控制点的距离
    39~40 Angstrom Exponent(AE), STD_AE AERONET提供的气溶胶消光参数均值及方差
    41 Aerosol Type MODIS估算的气溶胶类型
    42 Scattering angle(SA) 散射角
    43~44 Cloud_Frac, STD_Cloud_Frac 空间单元范围内有云像素比例及方差
    45~46 M_AOT, STD_M_AOT MODIS通过反演方法估算的AOT均值及方差
    下载: 导出CSV

    表  2  46个属性按先验知识的分组子集

    Table  2.   Sub-groups by Priori Knowledge

    组号 组内属性编号 分组依据
    1 1~7, 15~17 辐射信息
    2 21~24 观测几何
    3 8~14, 18~20, 27, 40, 44, 46 差异性
    4 25~26, 28~32 地表类型
    5 33~38 地理位置/海拔高度
    6 39, 41~43, 45 与气溶胶反演有关
    下载: 导出CSV

    表  3  不同属性集合作为输入的ANN估测结果对照表

    Table  3.   Estimation Results Comparison with Different Inputs by ANN Model

    测试结果 R2 RMSE CORR
    MODIS均值
    MODIS方差
    集合1均值
    集合1方差
    集合2均值
    集合2方差
    集合3均值
    集合3方差
    0.485 3
    (0.031 5)
    0.812 6
    (0.002 7)
    0.809 6
    (0.003 0)
    0.813 8
    (0.001 6)
    0.012 0
    (7.21×10-4)
    0.004 4
    (6.23×10-5)
    0.004 4
    (7.03×10-5)
    0.004 3
    (3.84×10-5)
    0.836 0
    (0.009 0)
    0.901 6
    (0.001 4)
    0.899 9
    (0.001 7)
    0.902 3
    (0.000 8)
    下载: 导出CSV
  • [1] Breider T, Mickley L, Jacob D, et al.Annual Distributions and Sources of Arctic Aerosol Components, Aerosol Optical Depth, and Aerosol Absorption[J]. Journal of Geophysical Research, 2014, 119(7):4107-4124 https://scholars.uow.edu.au/display/publication89532
    [2] Luo Y, Zheng X, Zhao T, et al.A Climatology of Aerosol Optical Depth over China from Recent 10 Years of MODIS Remote Sensing Data[J]. International Journal of Climatology, 2014, 34(3):863-870 doi:  10.1002/joc.3728
    [3] Kaufman Y J, Gobron N, Pinty B. Relationship Between Surface Reflectance in the Visible and Mid-IR Used in MODIS Aerosol Algorithm-Theory[J]. Geophysical Research Letters, 2002, 29(23):311-314 doi:  10.1029/2001GL014492
    [4] Kondratev K I, Buznikov A A, Vasilev O B, et al. Influence of the Atmosphere on the Spectral Brightnesses and Contrasts of Natural Formations in Spectrophotometry of the Earth from Space[J].Izvestiya Atmospheric and Oceanic Physics, 1975(11):348-361 https://www.researchgate.net/publication/241380042_Influence_of_the_atmosphere_on_the_spectral_brightnesses_and_contrasts_of_natural_formations_in_spectrophotometry_of_the_earth_from_space
    [5] Liang S L, Zhong B, Fang H L. Improved Estimation of Aerosol Optical Depth from MODIS Imagery over Land Surfaces[J].Remote Sensing of Environment, 2006(104):416-425
    [6] Vucetic S, Han B, Mi W, et al. A Data Mining Approach for the Validation of Aerosol Retrievals[J]. IEEE Geoscience and Remote Sensing Letters, 2008, 5(1):113-117 doi:  10.1109/LGRS.2007.912725
    [7] Jun G, Ghosh J, Radosavljevic V. Predicting Ground-Based Aerosol Optical Depth with Satellite Images via Gaussian Process[C]. International Conference on Knowledge Discovery and Information Retrieval (KDIR), Valencia, Spain, 2010 https://www.researchgate.net/publication/220801976_Predicting_Ground-based_Aerosol_Optical_Depth_with_Satellite_Images_Via_Gaussian_Processes
    [8] Tibshirani R. Regression Shrinkage and Selection via the Lasso[J].Journal of the Royal Statistical Society-Methodological, 1996, 58(1):267-288 http://www.jstor.org/stable/2346178
    [9] Chu D A, Kaufman Y J, Ichoku C, et al. Validation of MODIS Aerosol Optical Depth Retrieval over Land[J]. Geophysical Research Letters, 2002, 29(12):MOD2-1-MOD2-4 https://www.researchgate.net/publication/260052520_Validation_of_MODIS_aerosol_optical_depth_retrieval_over_land
    [10] Remer L A, Kaufman Y J, Tanré D, et al. The MODIS Aerosol Algorithm, Products, and Validation[J]. Journal of the Atmospheric Sciences, 2005, 62(4):947-973 doi:  10.1175/JAS3385.1
    [11] Levy R C, Remer L A, Dubovik O. Global Aerosol Optical Properties and Application to Moderate Resolution Imaging Spectroradiometer Aerosol Retrieval over Land[J]. Journal of Geophysical Research:Atmospheres, 2007(112):3710-3711 https://www.researchgate.net/publication/251428097_Global_aerosol_optical_properties_and_application_to_Moderate_Resolution_Imaging_Spectroradiometer_aerosol_retrieval_over_land
    [12] Levy R C, Remer L A, Kleidman R G, et al. Global Evaluation of the Collection 5 MODIS Dark-Target Aerosol Products over Land[J]. Atmospheric Chemistry and Physics, 2010, 10(21):10399-10420 doi:  10.5194/acp-10-10399-2010
    [13] Han B, Gao X, Cui X. Model-Based Sensitivity Analysis on Aerosol Optical Thickness Prediction[J]. International Journal of Distributed Sensor Networks, 2015(1):1-9 doi:  10.1155/2015/326132
    [14] Ichoku C, Chu D A, Mattoo S, et al. A Spatio-Temporal Approach for Global Validation and Analysis of MODIS Aerosol Products[J]. Geophysical Research Letters, 2002, 29(12):MOD1-1-MOD1-4 doi:  10.1029/2001GL013206/abstract
    [15] Belloni A, Chernozhukov V, Wang L. Pivotal Estimation via Square-Root LASSO in Nonparametric Regression[J].The Annals of Statistics, 2014, 42(2):757-788 doi:  10.1214/14-AOS1204
    [16] Rumelhart D E, Hinton G E, Williams R J. Learning Representations by Back-Propagating Errors[J]. Cognitive Modeling, 1986, 5(3):533-536 https://dl.acm.org/citation.cfm?id=65669.104451
  • [1] 方新, 邹滨, 刘宁.  不确定性约束下的AOD空间覆盖STRE建模优化 . 武汉大学学报 ● 信息科学版, 2020, 45(4): 534-541. doi: 10.13203/j.whugis20180271
    [2] 沈维青, 张丰, 刘仁义, 杜震洪.  利用SARA结合高分一号数据反演气溶胶光学厚度 . 武汉大学学报 ● 信息科学版, 2020, 45(6): 914-922. doi: 10.13203/j.whugis20190034
    [3] 顾海燕, 闫利, 李海涛, 贾莹.  基于随机森林的地理要素面向对象自动解译方法 . 武汉大学学报 ● 信息科学版, 2016, 41(2): 228-234. doi: 10.13203/j.whugis20140102
    [4] 王云艳, 何 楚, 涂 峰, 陈 东, 廖明生.  特征选择双层svm的融合算法用于极化sar图像分类 . 武汉大学学报 ● 信息科学版, 2015, 40(9): 1157-1162. doi: 10.13203/j .whu g is20140351
    [5] 李雪, 舒宁, 李井冈, 刘小利.  基于特征贡献选择的遥感影像变化检测方法研究 . 武汉大学学报 ● 信息科学版, 2013, 38(10): 1158-1162.
    [6] 王华, 郭阳洁, 洪松, 牛蓓蓓.  区域气溶胶光学厚度空间格局特征研究 . 武汉大学学报 ● 信息科学版, 2013, 38(7): 869-874.
    [7] 余晓敏, 湛飞并, 廖明生, 胡金星.  利用改进SEaTH算法的面向对象分类特征选择方法 . 武汉大学学报 ● 信息科学版, 2012, 37(8): 921-924.
    [8] 何楚, 刘明, 许连玉, 刘龙珠.  利用特征选择自适应决策树的层次SAR图像分类 . 武汉大学学报 ● 信息科学版, 2012, 37(1): 46-49.
    [9] 刘梦玲, 陈嘉宇, 孙洪.  Joint Boost特征选择的SAR信息可视化技术研究 . 武汉大学学报 ● 信息科学版, 2012, 37(10): 1240-1243.
    [10] 刘海, 陈晓玲, 宋珍, 殷守敬.  MODIS影像雪深遥感反演特征参数选择与模型研究 . 武汉大学学报 ● 信息科学版, 2011, 36(1): 113-116.
    [11] 朱忠敏, 余娟, 龚威.  Peterson模型的参数选择及优化 . 武汉大学学报 ● 信息科学版, 2011, 36(9): 1025-1029.
    [12] 朱忠敏, 龚威, 余娟, 田礼乔.  水平能见度与气溶胶光学厚度转换模型的适用性分析 . 武汉大学学报 ● 信息科学版, 2010, 35(9): 1086-1090.
    [13] 郭阳洁, 洪松, 庄艳华, 冯楠.  湖北省气溶胶光学厚度时空分布特征研究 . 武汉大学学报 ● 信息科学版, 2010, 35(11): 1381-1385.
    [14] 李祖传, 马建文, 张睿, 李利伟.  利用融合纹理与形态特征进行地震倒塌房屋信息自动提取 . 武汉大学学报 ● 信息科学版, 2010, 35(4): 446-450.
    [15] 杨柳, 刘艳芳.  将微粒群和支持向量机用于耕地驱动因子选择的研究 . 武汉大学学报 ● 信息科学版, 2010, 35(2): 248-251.
    [16] 麻金继, 乔延利, 杨世植, 崔执凤.  利用MODIS图像反演海岸带气溶胶光学特性 . 武汉大学学报 ● 信息科学版, 2009, 34(7): 842-846.
    [17] 张睿, 马建文.  一种SVM-RFE高光谱数据特征选择算法 . 武汉大学学报 ● 信息科学版, 2009, 34(7): 834-837.
    [18] 叶志伟, 郑肇葆, 万幼川, 虞欣.  基于蚁群优化的特征选择新方法 . 武汉大学学报 ● 信息科学版, 2007, 32(12): 1127-1130.
    [19] 金淑英, 李德仁, 龚健雅.  基于偏最小二乘回归的纹理特征线性组合 . 武汉大学学报 ● 信息科学版, 2006, 31(5): 399-402.
    [20] 赵庆志, 杨鹏飞, 李祖锋, 姚顽强, 姚宜斌.  COVID-19期间中国区域AOD与气象因子时空特征分析 . 武汉大学学报 ● 信息科学版, 0, 0(0): 0-0. doi: 10.13203/j.whugis20210209
  • 加载中
图(1) / 表(3)
计量
  • 文章访问数:  2311
  • HTML全文浏览量:  65
  • PDF下载量:  265
  • 被引次数: 0
出版历程
  • 收稿日期:  2016-09-12
  • 刊出日期:  2018-04-05

气溶胶光学厚度估测中的LASSO特征选择方法

doi: 10.13203/j.whugis20160014
    基金项目:

    国家自然科学基金 U1531122

    国家自然科学基金 61272272

    国家自然科学基金 61440054

    湖北省自然科学基金 2014CFA048

    湖北省自然科学基金 2015CFA058

    中央高校基本科研业务费专项资金 216-410500012

    作者简介:

    韩波, 博士, 副教授, 主要从事数据挖掘方法与应用的研究。bhan@whu.edu.cn

    通讯作者: 崔晓辉, 博士, 教授。xcui@whu.edu.cn
  • 中图分类号: P237

摘要: 气溶胶光学厚度估测中通常利用遥感信息构造的多种特征属性作为输入,然而,这些属性中常常存在数据噪音、相互关联性和缺失值,从而降低了估测精度和估测强健性。针对这个问题,基于最小绝对收缩和选择算子(least absolute shrinkage selection operator,LASSO)方法和气溶胶光学厚度反演的先验知识,提出了一种针对遥感卫星观测的高维数据进行特征选择的方法,利用2009年4月2日至2011年4月1日2 a间与全球197个气溶胶地基自动观测网站点时空同步的MODIS(moderate-resolution imaging spectroradiometer)遥感数据,采用常用的人工神经网络作为估测模型进行实验分析,表明该方法能结合反演先验知识对多种异质遥感属性进行分组,通过组间迭代保留关键特征,去除冗余属性,有效进行特征选择,从而显著提高气溶胶光学厚度的估测精度。

English Abstract

韩波, 李衡, 王志波, 崔晓晖. 气溶胶光学厚度估测中的LASSO特征选择方法[J]. 武汉大学学报 ● 信息科学版, 2018, 43(4): 536-541. doi: 10.13203/j.whugis20160014
引用本文: 韩波, 李衡, 王志波, 崔晓晖. 气溶胶光学厚度估测中的LASSO特征选择方法[J]. 武汉大学学报 ● 信息科学版, 2018, 43(4): 536-541. doi: 10.13203/j.whugis20160014
HAN Bo, LI Heng, WANG Zhibo, CUI Xiaohui. A Feature Selection Approach via LASSO for Aerosol Optical Thickness Estimation[J]. Geomatics and Information Science of Wuhan University, 2018, 43(4): 536-541. doi: 10.13203/j.whugis20160014
Citation: HAN Bo, LI Heng, WANG Zhibo, CUI Xiaohui. A Feature Selection Approach via LASSO for Aerosol Optical Thickness Estimation[J]. Geomatics and Information Science of Wuhan University, 2018, 43(4): 536-541. doi: 10.13203/j.whugis20160014
  • 气溶胶光学厚度(aerosol optical thickness,AOT)是一种反映气溶胶对于太阳光衰减的大气参数,它对环境保护等科学问题的研究具有重要作用[1-2]。传统基于卫星遥感数据估测气溶胶光学厚度的方法,如Kaufman等人提出的暗像元算法和扩展暗像元算法[3],Kondmtyev等人建立的高反差地表法[4],Liang等人提出的亮像元法等[5]。对于全球大多数区域, 各种传统反演算法能在一定误差范围内估测AOT,但估测精度仍然有待提高。近年科学家们将数据挖掘与卫星遥感数据相结合,提出了数据驱动的多种AOT估测模型[6-7],能有效提高估测精度。这种模型的一个重要步骤是基于卫星遥感数据及其反演结果,尽可能多地构造与估测目标相关的特征属性,然后利用神经网络等数据挖掘方法建立估测模型。但这样构造的特征属性存在3个方面的问题:①气溶胶关联的物理、化学过程非常复杂,构造的部分特征属性可能对于实际的估测没有帮助,甚至成为数据噪音;②构造的多个特征属性之间相互关联,而目前数据挖掘估测模型通常要求输入属性满足独立同分布假设,相互关联的属性会降低估测模型的精度;③由于设备失效、天气恶劣等多种因素,遥感信息构造的属性记录中有些有缺失,会降低估测的强健性。因此,有必要对构造的遥感特征属性进行有效选择,提高估测精度和强健性。已有的研究尚未针对估测的特征提出有效选择的方法。

    针对以上问题,本文基于最小绝对收缩和选择算子(least absolute shrinkage selection operator,LASSO)方法[8]和AOT反演的先验知识,提出了一种针对遥感卫星观测的高维数据进行特征选择的方法,可以筛选出与AOT估测相关的有效特征属性,从而进一步提高估测精度和强健性。

    • MODIS(moderate-resolution imaging spectroradiometer)是当前最常用的估测气溶胶光学厚度的遥感设备。为验证AOT估测的精度,根据大气遥感的通常作法[9],本文选用与MODIS遥感数据时空同步的全球地基气溶胶自动观测网(AErosol RObotic NETwork,AERONET)采集的AOT值作为实际观测值。本研究中MODIS与AERONET数据的时空同步原则如下:空间上以AERONET站点为中心,要求MODIS采集的多波段信息等在方圆40 km范围内构建空间单元,从而获得空间单元内的辐射均值和方差等遥感属性, 以此作为MODIS对于一个AERONET站点的观测特征属性,将其作为自变量;时间上以MODIS过境AERONET站点的时刻为中心,取该站点前后30 min的AOT均值为估测目标。基于上述数据源,根据MODIS陆地AOT反演模型[10-12]和过去采用数据挖掘方法估测AOT所经常采用的属性[6, 13],构造了下列46个自变量特征属性(表 1)。

      表 1  构造的46个特征属性

      Table 1.  46 Constructed Features

      属性编号 标记 解释
      1~14 Ref_1~Ref_7,
      STD_Ref_1~STD_Ref_7
      与AOT有关的7个波段(0.47~2.1 μm)在空间单元范围内的辐射亮度均值与方差
      15~20 Surf_Ref_1~Surf_Ref_3
      STD_SurRef_1~STD_SurRef_3
      在空间单元范围内的3个地表反射均值及方差
      21~22 Solar_Z, Solar_A 太阳天顶角、太阳方位角
      23~24 Sensor_Z, Zensor_A 传感器天顶角、传感器方位角
      25~27 NDVIswir, NDVIswir2, STD_NDVIswir VIS/SWIR表面反射率比参数均值及方差
      28~32 Land, Costal, Desert, Water,
      Land_only_flag
      在水上、岸边、沙漠及陆地的像素比例及
      全部在陆地的标记
      33~35 A_alt, M_alt, STD_M_alt AERONET站点检测的海拔高度,MODIS检测的空间单元范围内海拔高度均值及方差
      36~38 Dist1~Dist3 空间单元中心点到全球3个典型控制点的距离
      39~40 Angstrom Exponent(AE), STD_AE AERONET提供的气溶胶消光参数均值及方差
      41 Aerosol Type MODIS估算的气溶胶类型
      42 Scattering angle(SA) 散射角
      43~44 Cloud_Frac, STD_Cloud_Frac 空间单元范围内有云像素比例及方差
      45~46 M_AOT, STD_M_AOT MODIS通过反演方法估算的AOT均值及方差

      1) MODIS气溶胶反演算法中所涉及到的可能相关属性[10, 14]:与AOT有关的7个波段(470 nm,550 nm,660 nm,860 nm,1 240 nm,1 640 nm,2 120 nm)在空间单元范围内的辐射亮度均值与方差(属性1~14);3个地表反射均值及方差(属性15~20);观测几何参数(属性21~24)。

      2) 在对MODIS气溶胶反演结果进行校验过程中发现与AOT有关的属性[11, 12]:VIS/SWIR表面反射率比参数均值及方差(属性25~27);地表类型属性及全部在陆地的标识(属性28~32),它们可能对于AOT反演具有一定影响;AERONET站点检测的海拔高度,MODIS检测的空间单元范围内海拔高度均值及方差(属性33~35);气溶胶消光参数(angstrom exponent, AE)可以反映颗粒的大小,它对于估测不同气溶胶类型的AOT具有作用,因此包含MODIS过境AERONET站点前后30 min的AE均值及方差(属性39~40);同时,MODIS产品提供了一个估算的气溶胶类型(属性41);散射角(属性42)与AOT的浓度相关;MODIS检测的在空间单元内有云像素比例及方差(属性43~44);

      3) MODIS通过反演方法估算了AOT值,具有重要的参考价值。本文希望在其基础上进一步提高AOT的估算精度,因此属性考虑了空间单元内MODIS反演AOT均值及方差(属性45~46);

      4) MODIS反演算法是根据一定典型地区的采样基础上开发的逆向检索算法,根据我们的实验研究,发现该算法与全球3个典型数据采样点的距离(3个点分别位于北欧(57.70°E, 21.47°N)、西欧(43.74°E, 6.54°N)和亚洲西南(28.17°E, 37.95°N))和MODIS AOT反演算法的精确度有一定关系(属性36~38)。

      总之,这46个属性或与反演算法的输入特征有关,或在后来校验过程中发现与AOT估算精度有关,因此将它们作为候选特征属性具有合理性。

    • §1构建的46个特征属性可能会存在噪音或相互关联的冗余属性,需要挑选出最有估测效果的特征属性,以提高估测精度。在数据挖掘领域,虽然特征选择方法对于分类问题已有较为成熟的方法,如信息增益等,但对于估测问题目前还没有公认的通用方法。本文将LASSO方法和基于AOT反演先验知识的属性分组相结合,提出了一种有效应用于AOT估测的特征选择方法。

    • LASSO方法通过构造一个惩罚函数使得一些特征属性的系数为零或接近为零,从而自动地精简自变量建模。

      给定包含N条观测记录的数据集合(Ai, Oi), i=1, 2…N, 其中观测记录Ai是一个包含p个观测属性的向量,即Ai=(ai1aip)TOi是估测目标。假设aij是标准化的,即$ \frac{{\sum\nolimits_i {{a_{ij}}} }}{N} = 0 $, $ \frac{{\sum\nolimits_i {a_{_{ij}}^2} }}{N} = 1 $。令系数向量$ \mathit{\boldsymbol{\hat \beta = }}{\left( {{{\hat \beta }_1} \cdots {{\hat \beta }_p}} \right)^{\rm{T}}}$,LASSO方法要求在系数向量绝对值之和小于一个阈值t的条件下求解下列参数($ \hat \gamma, \mathit{\boldsymbol{\hat \beta }} $),即:

      $$ \begin{array}{c} \left( {\hat \gamma, \mathit{\boldsymbol{\hat \beta }}} \right) = \arg \min \left\{ {\sum\limits_{i = 1}^N {{{\left( {{O_i}-\hat \gamma-\sum\limits_{j = 1}^p {{{\hat \beta }_j}{a_{ij}}} } \right)}^2}} } \right\}\\ 使得\sum\limits_{j = 1}^p {\left| {{{\hat \beta }_j}} \right|} \le t \end{array} $$

      式中,t≥0是一个可调整参数。通常对于所有的t,对参数$ {\hat \gamma } $的估算是$ \hat \gamma = \sum\limits_{i = 1}^N {{O_i}/N} $。式(1)实质上是求解一个线性不等约束的二次规划问题。调整参数t能控制变量系数$ {{{\hat \beta }_j}} $的变化。假设$ \hat \beta _{_j}^0 $为完整最小二乘估计且$ {t_0} = \sum {\left| {\hat \beta _{_j}^0} \right|} $,则当t<t0时会使得模型的某些自变量系数收缩趋向于0,且某些系数可能就等于0。如果t=t0/2,则可能会导致只有p/2个特征变量具有非零系数。因此,LASSO方法具有特征选择的功能特性。随着大数据时代海量高维数据的不断丰富,该方法得到越来越广泛的应用[15]

    • LASSO方法通过加入所有自变量系数绝对值之和小于一个阈值的约束条件,使得在求解多元回归模型时与估测目标弱相关的自变量系数趋近于零, 从而起到特征选择的作用。但是遥感数据比较复杂,有连续值属性、离散值属性、稀疏属性(指大多数记录的值为0),这些异质属性使得一个统一的回归模型求解得到的自变量系数并不能较好地反映其对于估测的作用。而MODIS利用反演方法估算出AOT值后,很多研究者作了校验工作,发现了一些属性对于估测精确度的重要作用。

      因此,本文将AOT反演的先验知识与LAS-SO方法相结合,将各种遥感属性按照其遥感性质或在反演中的作用分组,同一分组中的属性具有同质性,然后根据各组属性组合提出一种迭代LASSO方法来提高特征选择的有效性。具体步骤如下。

      1) 利用构造的遥感属性种类和性质等AOT反演先验知识,将46个特征属性分成6个变量分组,其中具有类似性质的属性归为一个分组(表 2)。

      表 2  46个属性按先验知识的分组子集

      Table 2.  Sub-groups by Priori Knowledge

      组号 组内属性编号 分组依据
      1 1~7, 15~17 辐射信息
      2 21~24 观测几何
      3 8~14, 18~20, 27, 40, 44, 46 差异性
      4 25~26, 28~32 地表类型
      5 33~38 地理位置/海拔高度
      6 39, 41~43, 45 与气溶胶反演有关

      2) 第1组辐射信息和第2组观测几何覆盖了MODIS反演算法所用的属性,合并这两组变量并进行LASSO特征选择,从而将冗余属性过滤掉,设这样得到的子集为基本特征集合S12。

      3) 以S12为基本信息,分别将余下的第i组元素(i=3, 4, 5, 6)与S12合并,然后进行LASSO特征选择,分别得到这些组中能增加S12有效信息的特征子集,记为S3、S4、S5和S6。其中,根据已有研究成果[11-12],除Aerosol Type是MODIS根据模型匹配的大致结果,不大准确外,其他属性根据AOT反演的实验结果保留进特征组。同时,由于加入了这些新特征,如果在LASSO特征选择中导致原S12变量的系数绝对值变小α倍(α设为100),那么这些弱化的S12属性将标记为Sdel。

      4) 从S12属性中剔除掉标记为Sdel的弱化属性,得到新集合S′12,将S′12和S3、S4、S5、S6合并,即为最后的特征选择结果。28个属性的归属为(1,15.40,20,34,42),(2,16,8,26,35,43),(3,17,12,30,36,45),(4,21,18,28,38),(6,46,19,33,39)。

      为做对照,我们采用常规LASSO方法对所有属性进行一次性特征选择,其筛选结果为(1,7,40,19,33,39),(3,17,8,20,35,43),(4,21,9,26,36,45),(5,23,10,25,37),(6,46,18,30,38)。

      对照可以看出,两种方法含有相同个数的属性,但由于常规LASSO方法是根据一个统一的回归模型估算来从全部异质特征中淘汰变量,一些重要变量(如Land, M_Alt和SA等)未被选择进子集,同时一些具有较大冗余信息的属性(如Ref_5)被选中,相比先验知识-LASSO方法的特征选择结果不够先进,造成了后面对于同一神经网络回归模型的估测精确度差别。

    • 为检验特征选择的有效性,利用估测中常用的BP人工神经网络(neural network,ANN)算法进行实际测试。

    • ANN是以Rumelhart为首的科学家小组于1986年提出的一种多层前馈网络[16]。它在拓扑结构上包括输入层、隐含层和输出层,一个显著特点是提出了神经网络中连接权值调整的有效算法——误差反向传播算法。该算法包括两个过程:一个是从输入层到隐含层,再到输出层的信息正向传播过程;另一个是当实际输出与期望输出不符时,误差通过输出层,向隐含层、输入层按误差梯度下降的方式逐层反传、修正的反向传播过程。这两个过程不断迭代,直至模型收敛。BP神经网络已应用于许多领域的估测问题求解,是目前最为成功的估测算法之一。因此,本文采用该估测算法来验证特征选择的有效性。

    • 以全球197个AERONET站点为空间中心,收集了从2009年4月2日至2011年4月1日2 a的AERONET Level 2.0数据。根据§1特征属性构造中介绍的时空同步原则,下载了3个相应的MODIS产品,其中包含10 km分辨率的Level 2气溶胶光学厚度产品MYD04_L2, 5 km分辨率的Level-1B辐射信息产品MYD02SSH,1 km分辨率云检测产品MYD35。这3个产品按照以AERONET站点为中心,40 km为范围的空间单元进行信息融合,进而和MODIS过境时刻的AERONET记录一起构建特征属性46个,获得2 a间MODIS-AERONET联合记录6 351条。197个AERONET站点为陆地站点(含大陆海岸边),因此在空间单元范围内,根据MODIS检测的地表类型主要为陆地,但也有地表像素是在海岸边、湖水里和沙漠上。

      本文将原始的46个特征属性集合、常规LASSO方法以及先验知识-LASSO方法各自筛选出的28个特征属性子集分为3个特征属性集合,分别记为集合1、2、3,并作为输入,以ANN作为估算模型,比较不同输入条件下各模型的估算精度。

      估算精度采用了3种常用的回归度量指标:相对估测目标的回归决定系数R2、均方根误差RMSE和相关系数CORR:

      $$ \left\{ \begin{array}{l} {R^2} = \frac{{1-\mathop \sum \limits_{i = 1}^N {{({\rm{AO}}{{\rm{T}}_i}-{E_i})}^2}}}{{\mathop \sum \limits_{i = 1}^N {{({\rm{AO}}{{\rm{T}}_i}-\overline {{\rm{AOT}}} )}^2}}}\\ {\rm{RMSE}} = \sqrt {\frac{{\mathop \sum \limits_{i = 1}^N {{({\rm{AO}}{{\rm{T}}_i} - {E_i})}^2}}}{N}} \\ {\rm{CORR}} = \frac{{\mathop \sum \limits_{i = 1}^N ({E_i} - {{\bar E}_i})\cdot({\rm{AO}}{{\rm{T}}_i} - \overline {{\rm{AOT}}} )}}{{\sqrt {\mathop \sum \limits_{i = 1}^N {{({E_i} - {{\bar E}_i})}^2}\cdot\mathop \sum \limits_{i = 1}^N {{({\rm{AO}}{{\rm{T}}_i} - \overline {{\rm{AOT}}} )}^2}} }} \end{array} \right. $$ (1)

      式中,AOTi是第i个记录中AOT实际测量值;$ {\overline {{\rm{AOT}}} } $是测试样本中AOT实际测量值的均值;Ei是第i个AOT估测值;E是所有测试样本估测均值。

      随机将数据集合一半划分为训练集合,另一半为测试集合,采用交叉验证方法(cross-validation)检查估测精确度。为减少随机性,程序运行20遍,不同输入条件下的神经网络测试结果均值和方差(括号内数字)见表 3,对应的散点图如图 1所示。

      表 3  不同属性集合作为输入的ANN估测结果对照表

      Table 3.  Estimation Results Comparison with Different Inputs by ANN Model

      测试结果 R2 RMSE CORR
      MODIS均值
      MODIS方差
      集合1均值
      集合1方差
      集合2均值
      集合2方差
      集合3均值
      集合3方差
      0.485 3
      (0.031 5)
      0.812 6
      (0.002 7)
      0.809 6
      (0.003 0)
      0.813 8
      (0.001 6)
      0.012 0
      (7.21×10-4)
      0.004 4
      (6.23×10-5)
      0.004 4
      (7.03×10-5)
      0.004 3
      (3.84×10-5)
      0.836 0
      (0.009 0)
      0.901 6
      (0.001 4)
      0.899 9
      (0.001 7)
      0.902 3
      (0.000 8)

      图  1  基于MODIS AOT反演值及以不同特征属性集合为BP神经网络模型输入的估测结果散点图比较

      Figure 1.  Comparison of Scattering-Plots Between MODIS AOTs and Estimations with Different Inputs

      表 3可以看出,以3种属性集合作为输入的ANN估测结果都显著好于MODIS AOT反演结果,以先验知识-LASSO选出的属性集合能比其他两个属性集合获得更精确的估测结果。

      图 1中的散点图对比也可以看出,MODIS AOT反演值结果有较多的点远离45o次对角线。其他3个神经网络估测图中类似点显著减少,以先验知识-LASSO方法筛选出的属性集合为输入的ANN估测点更集中分布于45°次对角线附近的区域。

      另一方面,先验知识-LASSO方法从全部46个属性中筛选出28个有效属性,减少了特征维度,使得含有属性缺失值的记录减少,扩大了训练集合和测试集合的记录数量,从而提高了估测模型的强健性。

    • 针对气溶胶光学厚度估测中的特征选择问题,本文提出了一种先验知识-LASSO方法进行遥感特征属性的筛选。将LASSO方法与领域科学家在开发、验证反演模型过程中获得的成果相结合,通过属性分组和LASSO迭代使得特征选择既能去除冗余属性,又能结合先验知识保留关键特征,从而提高AOT估测的精度。以2009年4月2日到2011年4月1日2 a间全球197个AERONET站点为空间中心的MODIS、AERONET时空同步数据验证了提出的特征选择方法的有效性。该方法的局限性在于需要对于高维异质遥感属性具有一定的先验知识。由于目前对于遥感观测目标一般都具有许多校验研究,从这些校验结果中通过领域知识分析可以获得观测属性性质等先验知识。

      在后续的研究中,将利用本文提出的方法来探索提高其他大气参数(如PM2.5)的估测精度。

参考文献 (16)

目录

    /

    返回文章
    返回