留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于改进LUR模型的大区域PM2.5浓度空间分布模拟

李爽 翟亮 桑会勇 邹滨 方新 甄云鹏

李爽, 翟亮, 桑会勇, 邹滨, 方新, 甄云鹏. 基于改进LUR模型的大区域PM2.5浓度空间分布模拟[J]. 武汉大学学报 ● 信息科学版, 2018, 43(10): 1574-1579, 1587. doi: 10.13203/j.whugis20170042
引用本文: 李爽, 翟亮, 桑会勇, 邹滨, 方新, 甄云鹏. 基于改进LUR模型的大区域PM2.5浓度空间分布模拟[J]. 武汉大学学报 ● 信息科学版, 2018, 43(10): 1574-1579, 1587. doi: 10.13203/j.whugis20170042
LI Shuang, ZHAI Liang, SANG Huiyong, ZHOU Bin, FANG Xin, ZHEN Yunpeng. An Improved LUR-based Spatial Distribution Simulation for the Large Area PM2.5 Concentration[J]. Geomatics and Information Science of Wuhan University, 2018, 43(10): 1574-1579, 1587. doi: 10.13203/j.whugis20170042
Citation: LI Shuang, ZHAI Liang, SANG Huiyong, ZHOU Bin, FANG Xin, ZHEN Yunpeng. An Improved LUR-based Spatial Distribution Simulation for the Large Area PM2.5 Concentration[J]. Geomatics and Information Science of Wuhan University, 2018, 43(10): 1574-1579, 1587. doi: 10.13203/j.whugis20170042

基于改进LUR模型的大区域PM2.5浓度空间分布模拟

doi: 10.13203/j.whugis20170042
基金项目: 

2017-地理国情监测工程(第二批)第一包专题性监测 Q1722

国家自然科学基金 41701213

中国测绘科学研究院基本科研业务费项目 7771716

地理国情监测国家测绘地理信息局重点实验室开放基金 2016NGCMZD03

国家自然科学青-基金 41501192

详细信息

An Improved LUR-based Spatial Distribution Simulation for the Large Area PM2.5 Concentration

Funds: 

Thematic Monitoring of the First Package of National Geographic Situation Monitoring Project in 2017(2nd Batch) Q1722

the National Natural Science Foundation of China 41701213

Basic Research Funding in CASM 7771716

Open Fund from the Key Laboratory for National Geographic Census and Monitoring, National Administration of Surveying, Mapping and Geoinformation 2016NGCMZD03

the National Natural Science Youth Fund Project of China 41501192

More Information
    Author Bio:

    LI Shuang, master, specializes in the information statistics of geographical conditions monitoring. E-mail:ls02020029@163.com

    Corresponding author: SANG Huiyong, PhD. E-mail:huiyong.sang@casm.ac.cn
图(5) / 表(2)
计量
  • 文章访问数:  855
  • HTML全文浏览量:  99
  • PDF下载量:  204
  • 被引次数: 0
出版历程
  • 收稿日期:  2017-02-28
  • 刊出日期:  2018-10-05

基于改进LUR模型的大区域PM2.5浓度空间分布模拟

doi: 10.13203/j.whugis20170042
    基金项目:

    2017-地理国情监测工程(第二批)第一包专题性监测 Q1722

    国家自然科学基金 41701213

    中国测绘科学研究院基本科研业务费项目 7771716

    地理国情监测国家测绘地理信息局重点实验室开放基金 2016NGCMZD03

    国家自然科学青-基金 41501192

    作者简介:

    李爽, 硕士, 主要从事地理国情信息统计与分析方面的研究。ls02020029@163.com

    通讯作者: 桑会勇, 博士。huiyong.sang@casm.ac.cn
  • 中图分类号: P208

摘要: 针对采用传统土地利用回归(land use regression,LUR)模型进行大气污染物浓度模拟时预测变量信息损失的缺陷,将主成分分析(principle component analysis,PCA)与逐步多元线性回归(stepwise multiple line regression,SMLR)相结合,提出了一种改进的LUR(PCA+SMLR)模型模拟大区域PM2.5浓度空间分布的方法。首先采用相关分析筛选与PM2.5显著相关的预测变量,然后对筛选出的预测变量进行主成分变换(PCA),最后保留所有主成分变量进行SMLR建立回归模型模拟PM2.5浓度。并以京津冀为研究区域进行实验验证,对PCR、SMLR、PCA+SMLR这3种模型的实验结果进行对比分析,结果表明,PCA+SMLR模型可提高预测变量对回归模型的贡献度,调整后R2达0.883,并且其精度检验指标及制图效果皆优于传统的LUR模型,证明了该模型可有效提高PM2.5浓度的模拟精度,对PM2.5区域联防联控具有指导意义。

English Abstract

李爽, 翟亮, 桑会勇, 邹滨, 方新, 甄云鹏. 基于改进LUR模型的大区域PM2.5浓度空间分布模拟[J]. 武汉大学学报 ● 信息科学版, 2018, 43(10): 1574-1579, 1587. doi: 10.13203/j.whugis20170042
引用本文: 李爽, 翟亮, 桑会勇, 邹滨, 方新, 甄云鹏. 基于改进LUR模型的大区域PM2.5浓度空间分布模拟[J]. 武汉大学学报 ● 信息科学版, 2018, 43(10): 1574-1579, 1587. doi: 10.13203/j.whugis20170042
LI Shuang, ZHAI Liang, SANG Huiyong, ZHOU Bin, FANG Xin, ZHEN Yunpeng. An Improved LUR-based Spatial Distribution Simulation for the Large Area PM2.5 Concentration[J]. Geomatics and Information Science of Wuhan University, 2018, 43(10): 1574-1579, 1587. doi: 10.13203/j.whugis20170042
Citation: LI Shuang, ZHAI Liang, SANG Huiyong, ZHOU Bin, FANG Xin, ZHEN Yunpeng. An Improved LUR-based Spatial Distribution Simulation for the Large Area PM2.5 Concentration[J]. Geomatics and Information Science of Wuhan University, 2018, 43(10): 1574-1579, 1587. doi: 10.13203/j.whugis20170042
  • 大气细小颗粒物PM2.5(直径小于等于2.5 μm)是大气主要污染物之一,与雾霾天气的发生密切相关[1]。根据环保部发布的《环境空气质量标准》中规定的居民区PM2.5年均浓度不超过35 μɡ/m3来衡量,2017年1月全国PM2.5排行榜中的114个城市仅有8个城市空气质量达标。研究表明,PM2.5会导致心血管和呼吸系统等疾病发病率的增加,严重影响人们的身体健康[2-3]。PM2.5污染已成为严峻的社会问题, 并引起了公众及政府环保部门的广泛关注[4]

    PM2.5浓度模拟可为环保部门治理大气污染提供决策支持,PM2.5浓度精确模拟已成为当前研究热点[5-6]。土地利用回归(land use regression,LUR)[7]模型是大气污染物浓度模拟的主要研究方法之一,该类研究采用与因变量显著相关的预测变量直接进行逐步多元线性回归(stepwise multiple line regression,SMLR)[8-9];或对预测变量进行主成分变换(principal component analysis,PCA),之后挑选特征根大于1或者累计方差贡献率达到80%的前几个主成分进行主成分回归(principal component regression,PCR)[10-12], 建立回归模型。但是,SMLR方法中的预测变量存在一定的共线性问题,并且在逐步回归时直接从模型中剔除了部分与因变量显著相关的预测变量;而PCR方法虽解决了预测变量的共线性问题,但该方法直接采用前几个主成分变量建立回归模型,没有进行主成分变量的筛选。

    针对上述不足,本研究将PCA与SMLR两种方法相结合,首先采用相关分析筛选与PM2.5显著相关的预测变量,然后对筛选出的预测变量进行PCA,最后保留所有主成分变量进行SMLR确立最优建模驱动因子,同时构建回归模型进行PM2.5浓度空间分布模拟。

    • 本文在传统LUR模型的基础之上构建了改进的LUR模型。相比于传统LUR模型在预测变量信息损失方面的缺陷,改进的LUR模型不仅可以消除预测变量的共线性, 从而避免信息冗余,而且可以让所有与PM2.5显著相关的预测变量参与到回归建模构建当中,达到提高预测变量对回归模型贡献度的目的。本文提出的改进LUR模型的核心在于结合PCA与SMLR两种方法建立回归模型,即先利用PCA消除预测变量的共线性,之后利用SMLR将变换后的预测变量逐步引入回归模型之中。

      PCA的基本思想是将原来众多具有一定相关性的变量重新组合成一组相互无关的新变量来代替原来的变量[10, 13]。所选取的新变量被称为主成分变量,选取的原则是尽可能保留原有变量所包含的信息。PCA在数学上的处理是将原来的变量X作线性组合,生成新的综合变量P,模型结构如下[11]

      $$ {P_i} = {l_{1i}}{X_1} + {l_{2i}}{X_2} + \ldots + {l_{ni}}{X_n} $$ (1)

      式中,Pi表示第i个主成分变量; lni表示预测变量Xn的载荷。由于各预测变量Xn的量纲不同,需要先对其进行0~1标准化处理,之后采用PCA方法将预测变量转换为主成分变量, 以消除原预测变量的共线性。不同于以往的PCR方法,本研究不依据特征根或方差贡献率直接选取前几个主成分变量,而是利用SMLR方法对主成分变量进行筛选。

      获取Pi之后,利用SMLR方法建立回归模型。SMLR是传统多元线性回归模型的扩展,其基本思想是在向前引入每一个新的自变量之后都要重新对之前已选入的自变量进行检查,以评价其有无继续保留在方程中的价值[14]。SMLR中自变量是否被引入或剔除取决于其偏回归平方和的F检验或校正决定系数R2(Adjusted R2,Adj_R2),自变量的引入和剔除交替进行,直到无具有统计学意义的新变量可以引入,也无失去统计学意义的自变量可以剔除时为止[15]。SMLR的公式如下:

      $$ {Y_i} = {\beta _0} + \sum\limits_{i = 1}^n {{\beta _i}{X_i}} + \varepsilon $$ (2)

      式中,Yi表示因变量; Xi表示自变量; βi表示回归系数; ε为模型的随机误差。以Pi作为自变量,利用SPPS 22.0自动实现自变量的引入或剔除,最终建立回归模型。

    • 将PCA与SMLR两种方法相结合构建了一种改进的LUR模型模拟PM2.5浓度,整个研究分为预测变量筛选、回归建模、模型检验、PM2.5年均浓度空间分布模拟制图 4个子过程。首先依据现有研究结果[6, 16-17]提取预测变量,进而根据Pearson相关性系数筛选与PM2.5显著相关的预测变量;然后对筛选出的预测变量进行PCA, 并保留所有Pi进行SMLR建立回归模型;之后统计拟合模型与交叉验证[18]模型下的均方根误差(root mean square error, RMSE)、平均预测误差(mean prediction error, MPE)、平均相对预测误差(mean relative prediction error, MRPE)3个指标[17]来检验模型性能;最后在研究区内建立10 km×10 km的加密点并采用普通克里金插值方法进行整个京津冀地区的PM2.5年均浓度空间分布模拟制图。技术路线如图 1所示。

      图  1  技术路线图

      Figure 1.  The Technique Flow Chart

    • 京津冀地区东临渤海, 西为太行山地, 北为燕山山地,地势西北高东南低,面积约21.6万km2(见图 2)。该地区经济发展迅速,加之三面环山的地形条件,使其成为国内大气污染最严重的地区之一。

      图  2  研究区域示意图

      Figure 2.  Sketch Map of the Study Area

      本研究采用的数据可分为5大部分:PM2.5监测站点实时浓度数据、气溶胶光学厚度(aerosol optical depth,AOD)数据、气象要素数据、地理要素数据、污染源要素数据。PM2.5监测站实时浓度数据来自中国环境监测总站城市空气质量实时发布平台;AOD数据采用从美国航空航天宇航局数据中心网站下载的MOD04_L2大气气溶胶数据产品;气象要素数据包括风速、气压、温度、降水、湿度,皆来源于中国地面气候资料日值数据集;地理要素数据包括DEM、道路数据和地表覆盖数据;污染源要素数据包括采用高分辨率遥感影像或航空正射影像获取的扬尘地表污染源数据和从企业法人数据库整理得到的工业企业污染源数据。

    • 本文对PCR、SMLR及PCA+SMLR这3种方法的实验结果进行了对比分析。

    • 对于传统的PCR方法,回归模型拟合优度与主成分变量个数之间的关系如图 3所示。从图 3可以看出:主成分变量个数达到8个以后, 回归模型的拟合优度趋于平稳,当所有主成分变量全部进入回归模型时, 其拟合优度最高,达到0.880。但研究表明[19],回归模型中预测变量个数过多会导致模型的过拟合问题,当因变量与自变量之比为10~15时模型较为合理。本文共78个PM2.5监测站点,选取5~7个变量作为建模回归因子为宜。因此,本文选取特征根大于1的6个主成分变量构建回归模型PCR1,同时为了验证过拟合问题,构建含有17个主成分变量的回归模型PCR2,并构建了SMLR及PCA+SMLR模型。

      图  3  回归模型拟合优度折线图

      Figure 3.  The Line Chart of Goodness of Fit for Regression Model

      上述4种模型的参数及拟合度如表 1所示。从表 1可知:SMLR模型只保留了5个与PM2.5相关的预测变量,其余12个与PM2.5强相关的预测变量对模型无贡献;PCR1与PCR2模型的建模驱动因子为主成分变量,因此17个与PM2.5强相关的预测变量都对回归模型有所贡献,但PCR1模型的拟合度较差,而PCR2模型的变量太多,可能导致模型的过拟合问题;相比较而言,PCA+SMLR模型通过SMLR逐步引入或剔除主成分变量,其调整后的R2为0.883,较PCR模型(0.793/0.880)和SMLR模型(0.832)有明显提升。

      表 1  模型参数及拟合度对比结果

      Table 1.  Comparison of Parameterization and Model Fitting for Four Models

      模型参数Adj_R2
      PCR1P1P2P3P4P5P60.793
      PCR2P1P2P3P4P5P6P7P8P9
      P10P11P12P13P14P15P16P17
      0.880
      SMLRX1X2X3X4X50.832
      PCA+SMLRP1P2P4P5P8P170.883
      注:Pi为第i个主成分;X1为气溶胶光学厚度;X2为降水;X3为监测站8 000 m缓冲区内耕地面积占比;X4为监测站8 000 m缓冲区内房屋建筑面积占比;X5为监测站5 000 m缓冲区内的露天采掘场面积占比。
    • 图 4展示了4种回归模型拟合结果与实测结果的散点图,表 2直观地对比了4种模型的精度检验指标,其结果均在合理范围内。就模型的拟合精度而言,PCR2模型的拟合结果最好,并且其RMSE、MPE、MRPE均优于其他3种模型;PCA+SMLR模型的拟合精度次之,并且与PCR2模型的精度相差不大。但就模型的交叉验证精度而言,PCA+SMLR模型的验证精度最优,并且相比拟合精度来说浮动很小,证明了该模型的可靠性与稳定性;PCR1与SMLR模型的验证精度与拟合精度结果也较为接近;相反,PCR2模型的验证精度浮动相对较大,并且MRPE精度在4个模型里最差,表明该模型存在过拟合问题。

      图  4  模型拟合结果与实测结果散点图

      Figure 4.  Scatter Plots of Fitting and Measured Results

      表 2  精度检验指标对比结果

      Table 2.  Comparison of Accuracy Indicators for Four Models

      模型拟合精度验证精度
      RMSE
      /μg·m-3
      MPE
      /μg·m-3
      MRPE
      /%
      RMSE
      /μg·m-3
      MPE
      /μg·m-3
      MRPE
      /%
      PCR18.9426.8699.92010.3947.1029.300
      PCR26.2485.0006.9838.7806.95010.266
      SMLR8.1046.2258.6289.3036.6288.509
      PCA+SMLR6.7215.2787.3897.3915.9128.419
    • 图 5为基于4种模型的PM2.5年均浓度模拟空间分布图。从图 5可以看出:虽然4种模型的PM2.5浓度均呈现由东南至西北区域递减的趋势,但SMLR模型的模拟效果较差(见图 5(c)),北京、唐山等城市PM2.5浓度整体偏低,沧州、天津等城市中心PM2.5浓度低,与实际情况完全相反。其他3种模型的模拟效果相近,均以太行山—燕山山脉为界限,东南地区浓度高,西北地区浓度低。相比PCR1模型(见图 5(a)),PCR2(见图 5(b))与PCA+SMLR模型(见图 5(d))中城市中心至城市边界PM2.5浓度逐渐降低的变化趋势更加明显。此外,张家口中心城区PM2.5浓度较高,与之前研究中张家口PM2.5浓度较低的结论相反,这主要是由于张家口地区筹备2022年冬奥会而产生的影响。

      图  5  PM2.5年均浓度模拟空间分布图

      Figure 5.  Spatial Distribution of PM2.5 Annual Concentrations Estimated

    • 从上述实验结果可以看出,传统的SMLR模型预测变量的贡献度较低且PM2.5浓度模拟结果相对较差;PCR1模型的拟合精度相对较差;PCR2模型采用主成分变量个数过多导致模型过拟合;本文提出的改进的LUR(PCA+SMLR)模型在模型精度及PM2.5浓度模拟上都取得了较好的结果。此外,构建好PCA+SMLR模型之后,可以通过主成分逆变换确定PM2.5浓度与17个原始强相关特征变量之间的相关关系,进而确定研究区内的PM2.5浓度主要受到哪些变量的影响。逆变换结果表明,本研究区内的气温、气压、降水等气象要素对PM2.5浓度影响较大,高程、污染企业、道路次之,各类地表覆盖等短期无明显变化的地理要素对PM2.5浓度的影响较小。

    • 本研究将PCA与SMLR方法相结合,建立改进的LUR模型以实现PM2.5年均浓度模拟空间分布制图。实例分析表明:PCA+SMLR模型不仅解决了预测变量的共线性问题,而且弥补了传统LUR模型在预测变量信息损失方面的缺陷,其拟合度、精度检验指标及浓度模拟效果皆优于传统LUR模型。此外,通过本研究得到了京津冀地区PM2.5浓度的空间分布规律,为PM2.5区域联防联控提供了有力的信息支撑。

      然而,本文仅选取本地区的污染源作为预测变量,未考虑外来污染的迁移因素,后续研究可综合考虑本地区污染源及输入性污染源,从而对PM2.5浓度模拟进行更加深入的探讨。

参考文献 (19)

目录

    /

    返回文章
    返回