留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

PM2.5浓度空间估算的神经网络与克里格方法对比

许珊 邹滨 王敏 刘宁

许珊, 邹滨, 王敏, 刘宁. PM2.5浓度空间估算的神经网络与克里格方法对比[J]. 武汉大学学报 ● 信息科学版, 2020, 45(10): 1642-1650. doi: 10.13203/j.whugis20180482
引用本文: 许珊, 邹滨, 王敏, 刘宁. PM2.5浓度空间估算的神经网络与克里格方法对比[J]. 武汉大学学报 ● 信息科学版, 2020, 45(10): 1642-1650. doi: 10.13203/j.whugis20180482
XU Shan, ZOU Bin, WANG Min, LIU Ning. Performance Comparison of Artificial Neural Network and Kriging in Spatial Estimation of PM2.5 Concentration[J]. Geomatics and Information Science of Wuhan University, 2020, 45(10): 1642-1650. doi: 10.13203/j.whugis20180482
Citation: XU Shan, ZOU Bin, WANG Min, LIU Ning. Performance Comparison of Artificial Neural Network and Kriging in Spatial Estimation of PM2.5 Concentration[J]. Geomatics and Information Science of Wuhan University, 2020, 45(10): 1642-1650. doi: 10.13203/j.whugis20180482

PM2.5浓度空间估算的神经网络与克里格方法对比

doi: 10.13203/j.whugis20180482
基金项目: 

国家重点研发计划 2016YFC0206205

国家自然科学基金 41871317

中南大学创新驱动计划 2018CX016

详细信息
    作者简介:

    许珊, 博士生, 主要从事城市大气污染时空精细模拟研究。shan_xu@csu.edu.cn

    通讯作者: 邹滨, 博士, 教授。210010@csu.edu.cn
  • 中图分类号: P208

Performance Comparison of Artificial Neural Network and Kriging in Spatial Estimation of PM2.5 Concentration

Funds: 

The National Key Research and Development Program of China 2016YFC0206205

the National Natural Science Foundation of China 41871317

the Innovation Driven Program of Central South University 2018CX016

More Information
    Author Bio:

    XU Shan, PhD candidate, specializes in fine spatial-temporal modeling of urban air pollution. E-mail: shan_xu@csu.edu.cn

    Corresponding author: ZOU Bin, PhD, professor. E-mail: 210010@csu.edu.cn
图(4) / 表(1)
计量
  • 文章访问数:  583
  • HTML全文浏览量:  176
  • PDF下载量:  73
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-12-27
  • 刊出日期:  2020-10-05

PM2.5浓度空间估算的神经网络与克里格方法对比

doi: 10.13203/j.whugis20180482
    基金项目:

    国家重点研发计划 2016YFC0206205

    国家自然科学基金 41871317

    中南大学创新驱动计划 2018CX016

    作者简介:

    许珊, 博士生, 主要从事城市大气污染时空精细模拟研究。shan_xu@csu.edu.cn

    通讯作者: 邹滨, 博士, 教授。210010@csu.edu.cn
  • 中图分类号: P208

摘要: 针对人工神经网络与克里格插值在PM2.5浓度空间估算中精度随样本点数量与耦合因素不同差异较大的问题, 基于相关分析与径向基函数(radical basis function, RBF)筛选PM2.5空间变异关键影响因素, 对比不同比例训练样本下普通克里格插值(ordinary Kriging, OK), 仅考虑地理坐标RBF神经网络, 耦合关键因素的协同克里格插值(CoKriging, CK)及RBF神经网络(CoRBF)的效果差异, 并基于最优方法开展PM2.5浓度空间制图。结果表明:4种方法均能有效实现PM2.5浓度空间估算, 且精度随训练样本比例增大而波动上升。考虑关键因素人口密度的CoRBF最能表现数据变化趋势, 而CK在误差指标上更优越。基于CK与CoRBF的PM2.5浓度空间估算结果较好展示了污染的分异特征, 前者较后者更平滑。

English Abstract

许珊, 邹滨, 王敏, 刘宁. PM2.5浓度空间估算的神经网络与克里格方法对比[J]. 武汉大学学报 ● 信息科学版, 2020, 45(10): 1642-1650. doi: 10.13203/j.whugis20180482
引用本文: 许珊, 邹滨, 王敏, 刘宁. PM2.5浓度空间估算的神经网络与克里格方法对比[J]. 武汉大学学报 ● 信息科学版, 2020, 45(10): 1642-1650. doi: 10.13203/j.whugis20180482
XU Shan, ZOU Bin, WANG Min, LIU Ning. Performance Comparison of Artificial Neural Network and Kriging in Spatial Estimation of PM2.5 Concentration[J]. Geomatics and Information Science of Wuhan University, 2020, 45(10): 1642-1650. doi: 10.13203/j.whugis20180482
Citation: XU Shan, ZOU Bin, WANG Min, LIU Ning. Performance Comparison of Artificial Neural Network and Kriging in Spatial Estimation of PM2.5 Concentration[J]. Geomatics and Information Science of Wuhan University, 2020, 45(10): 1642-1650. doi: 10.13203/j.whugis20180482
  • PM2.5是城市大气污染的主要污染物之一, 长期暴露在PM2.5高污染水平的环境中会增加人们罹患心血管、呼吸系统等疾病甚至死亡的风险[1-2], 掌握城市PM2.5浓度的空间分布特征, 从而有针对性地制定污染防控与风险规避的措施成为当前相关领域研究人员共同关注的热点。

    目前, 国际上普遍通过大气环境定点监测方式获取各城市PM2.5污染状况, 但受污染源分布、自然条件以及人为活动等因素空间异质性的影响, 各城市内部稀疏监测站点位置观测数据的空间代表性往往十分有限, 仅能反映该监测站点周围一定范围内的PM2.5污染特征[3]。为此, 研究人员引入了地统计、数值模拟、遥感反演、高级统计建模等一系列方法获取城市PM2.5污染连续空间分布, 以了解其分异规律[4-8]。其中, 地统计学估值方法克里格(Kriging)插值以区域化变量理论为基础, 以变异函数为核心, 在充分利用样本点空间位置信息的基础上提供了一种简单有效的线性无偏最优估值方法, 成为最早引入该领域也是应用最为广泛的空间估算方法之一。

    随着人工智能领域的飞速发展, 人工神经网络、贝叶斯最大熵估计、随机森林等机器学习模型因具有较强灵活性、成长性和普适性以及擅长通过学习解决复杂问题的能力, 成为大气污染物浓度空间模拟的新兴前沿[9-11]。其中, 人工神经网络通过从信息处理角度对人脑神经元网络进行抽象, 建立由大量处理单元互联组成的非线性、自适应、并行分布式的信息处理系统, 克服了传统机器学习模型在处理非结构化信息方面的缺陷, 在大气污染浓度预测与空间估算方面已有了较多应用[9, 12-14]

    然而, 作为大气污染浓度空间估算机器学习经典方法的人工神经网络与作为地统计方法重要代表的克里格插值, 在不同数据情景下(如不同样本点数量与耦合因素), 两种方法的优势是否会随之发生改变, 这些都是高效、准确了解PM2.5污染空间变异特征亟待回答的关键问题。

    本研究结合美国本土PM2.5年均浓度与气象、人口、土地、交通专题数据, 在基于相关分析与径向基函数(radical basis function, RBF)筛选PM2.5污染空间变异关键影响因素的基础上, 通过构建和比较不同数据情景下耦合与未耦合决定性影响因素的RBF神经网络与克里格插值方法, 探讨PM2.5空间估算的不同方法在不同数据条件下的适用性, 从而为有效制定大气污染防控措施、规避污染暴露风险提供科学支持。

    • 考虑PM2.5浓度空间分布的平稳特征, 以美国本土为研究区域, 包括48个州和哥伦比亚特区, 位于67°W~125°W、25°N~49°N之间。研究包括数据获取与处理、关键因素选取、模型构建与精度评定3个主要步骤(如图 1所示)。为降低后续实验数据处理与模型构建难度, 考虑到德克萨斯作为本土面积最大州, 具有丰富土地利用类型, 地势西高东低, 与研究区整体趋势基本一致, 具有一定代表性。首先, 以德克萨斯州为例对气象、人口、土地利用、交通等影响因子进行筛选, 确定关键影响因素。然后, 基于美国本土PM2.5数据, 构建不同数据情景下普通克里格插值(ordinary Kriging, OK), 仅以监测站点的地理坐标为变量的RBF神经网络, 以关键影响因素为辅助变量的协同克里格插值(CoKriging, CK), 以及耦合地理坐标与关键影响因素变量的RBF神经网络(称为CoRBF, 以示区别), 并开展精度分析对比。在此基础上, 综合考虑监测站点间距离与辅助数据空间分辨率, 选取最优方法开展研究区全域范围PM2.5浓度的空间分布制图。

      图  1  研究设计

      Figure 1.  Study Design

    • PM2.5浓度数据来源于美国环境保护局(United States Environmental Protection Agency, EPA), 通过对2010年日均数据进行处理求取年均值。美国本土各县人口总数采自美国人口普查局(US Census Bureau), 结合各县面积计算得到人口密度。气象数据包括年均温度、湿度、降水和风速, 采自美国国家气候数据中心(National Climatic Data Center, NCDC)和国家海洋与大气管理局(National Oceanic and Atmospheric Administration, NOAA)网站。土地利用类型数据源于美国国家地质调查局土地覆盖数据库(United States Geological Survey, USGS), 并按照需求重分类为水域、居住区、开放空间、植被覆盖区(包括草地与林地)、湿地与耕地, 空间分辨率为30 m×30 m。交通数据涵盖主要街道, 采自ESRI公司国家街道与地理编码数据库。

      研究区2010年有1 321个PM2.5监测站, 为方便后续精度评价工作的开展, 以训练样本比例5%为起点, 5%为间隔, 逐渐增加样本点数量(至95%), 研究过程中采用ArcGIS子集要素工具对上述数据随机分为训练样本和检验样本两组。

      针对辅助要素, 首先利用ArcGIS叠加分析, 以PM2.5监测站为中心, 提取、计算各中心点100 m、200 m、300 m、500 m、800 m、1 000 m、1 500 m、2 000 m、2 500 m、3 000 m、3 500 m、4 000 m、4 500 m、5 000 m范围内道路长度、距最近道路距离、各土地利用类型面积占比。然后, 对比分析2010年美国本土1 000个气象监测点气温、降水量等年均值反距离加权(inverse distance weighted, IDW)、OK与样条函数3种经典方法的插值精度, 选取十折交叉验证精度最优的IDW(R2: 0.89~0.90)得到气象要素空间分布, 进而提取监测站点对应数值。最后, 提取监测点对应县级人口密度, 按位置匹配对应PM2.5年均浓度构建数据样本。

    • 基于德克萨斯州54个监测点的数据样本, 以皮尔逊相关系数为指标, 初步快速筛选出与PM2.5浓度相关度较大的影响因子。参考相关研究, 认为与PM2.5浓度在0.01水平上显著相关且相关系数大于0.6的因素为强相关因素[9]。在此基础上, 结合监测站点的地理坐标, 构建筛选出的强相关因素单个因素与组合因素的PM2.5浓度RBF网络, 采用十折交叉验证定量评价各个模型的精度, 从而实现PM2.5浓度空间变化的关键因素进一步筛选。

    • RBF神经网络是一种常见的前馈神经网络, 具有逼近精度高、网络规模小、学习速度快和全局收敛等优点[14]。它由输入层、隐含层和输出层3个神经元层组成。每一层都包含大量互不相连的简单神经元, 输入层神经元一般采用高斯函数将输入数据传递到隐含层, 再由隐含层将数据激活放大后传递到输出层并输出。其中, 高斯函数表达式为:

      $$ {R_i}\left( x \right) = {\rm{exp}}\left[ { - \frac{{{{\left\| {x - {c_i}} \right\|}^2}}}{{2\delta _i^2}}} \right] $$ (1)

      式中, i=1, 2…m; ci为第i个基函数的中心; δi为第i个感知的变量; ‖x-ci‖为(x-ci)的范数, 表示xci间的距离。

      首先以地理位置(或地理位置与关键要素)作为输入层, PM2.5浓度作为输出层; 然后设计隐含层, 研究证明RBF神经网络能以任意精度逼近任意连续函数, 当隐含层神经元数目足够多, 具有一个隐含层的RBF神经网络就具有较高的精度[14-15]。因此本研究采用3层模型, 对不同训练比例下的网络进行性能测试, 确定不同训练样本下隐含层神经元个数。最后, 对网络进行训练, 并对比效果。

    • 普通克里格方法是满足假设的区域化变量的线性估计, 它假设数据的变化呈正态分布, 每一估值都是由其邻近观测值加权平均计算而得[16]。观测值离估值点越近, 其结果影响越大, 权重选择必须保证最终估值方差最小。OK方法可以简单表达为:

      $$ \mathop Z\limits^ \wedge \left( {{s_0}} \right) = \mathop \sum \limits_{i = 1}^n {w_i}Z\left( {{s_i}} \right) $$ (2)

      式中, Z(si)为已测得的第i个位置的属性值; wi为在第i个位置上测得值的权重, 其取决于已知点的拟合模型、到插值点的距离和插值点周围的已知样点的空间关系, 由变异函数给出, 各权重之和为1;s0为待插值的位置; n为已知样本点的数量。

      协同克里格方法把区域化变量理论的最佳估值方法从单一属性发展到两个以上的协同区域化属性, 利用与另一个变量之间的空间相关性实现估值[17]。基本表达式如下:

      $$ \mathop Z\limits^ \wedge \left( {{s_0}} \right) = \mathop \sum \limits_{i = 1}^n {w_i}{Z_1}\left( {{s_i}} \right) + \mathop \sum \limits_{j = 1}^p {w_j}{Z_2}\left( {{s_j}} \right) $$ (3)

      式中, Z1(si)Z2(sj)分别为已测得位置主变量和辅变量的属性值; wiwj为对应权重, 由协变异函数给出; s0为待插值的位置; np为主变量和辅变量已知样点的数量。

      首先判断训练样本数据是否服从或近似服从正态分布, 对于不满足要求的数据进行Box-Cox或对数变换; 然后以方差最小为原则, 选择方差变异的指数函数类型; 经过多次设置比较, 选择合适的搜索半径和邻近数据点数; 最后基于训练样本采取普通/协同克里格插值方法对输入的训练样本数据进行插值, 并最终提取检验样本各点PM2.5估算值。

    • 采用检验样本的模型估算浓度与观测值之间的均方误差(mean square error, MSE)、平均绝对误差(mean absolute error, MAE)、相对误差(relative error, RE)、决定系数(R2)以及一致度指数(index of agreement, IOA)5个指标来度量各个模型的空间估算精度。各指标计算公式如下:

      $$ {\rm{MSE}} = \frac{1}{n}\mathop \sum \limits_i {({{\rm{O}}_i} - {{\rm{S}}_i})^2} $$ (4)
      $$ {\rm{MAE}} = \frac{1}{n}\mathop \sum \limits_i \left| {{O_i} - {S_{\left. i \right|}}} \right. $$ (5)
      $$ {\rm{RE}} = \frac{1}{n}\mathop \sum \limits_i \left( {\frac{{\left| {{S_i} - {O_i}} \right|}}{{{O_i}}}} \right) \times 100\% $$ (6)
      $$ {R^2} = \frac{{{{\left[ {\mathop \sum \nolimits\limits_i \left( {{S_i} - \bar S} \right)\left( {{O_i} - \bar O} \right)} \right]}^2}}}{{\mathop \sum \nolimits\limits_i {{({O_i} - \bar O)}^2}\mathop \sum \nolimits\limits_i {{({S_i} - \bar S)}^2}}} $$ (7)
      $$ {\rm{IOA}} = 1 - \frac{{\frac{1}{n}\mathop \sum \nolimits\limits_i {{\left( {{S_i} - {O_i}} \right)}^2}}}{{\left( {\left| {{S_i} - \bar O} \right| + \left| {{O_i} - \bar O} \right|} \right)}} $$ (8)

      式中, i指样本点编号; OiSi分别是检验样本点的PM2.5年均浓度观测值与估算值; OS指各点PM2.5年均浓度观测值与估算值的平均值; n指检验样本点的数量。上述指标中, MSE、MAE和RE值越小, R2和IOA越接近于1, 表示估算精度越高。

    • 对比4种方法的精度, 选取95%比例下空间估算效果最优的方法开展PM2.5浓度空间制图。PM2.5监测站点间距离范围较大(0.000 4°~2.58°), 经统计分析知, 接近35%站点间距离小于0.1°, 而辅助数据空间分辨率差异较大, 人口数据以县为单位, 综合考虑, 选定0.1°×0.1°为PM2.5浓度制图空间分辨率。对于人工神经网络方法, 首先采用ArcGIS要素类工具生成0.1°×0.1°渔网点, 提取点位对应地理坐标与辅助变量值后, 利用训练好的RBF神经网络估算对应PM2.5浓度; 对于克里格方法, 则利用ArcGIS的地统计分析工具开展制图。

    • 经相关性分析筛选出人口密度、降水和站点周围500 m缓冲区范围内道路总长度3个强相关因素。基于这3个因素与地理坐标(X, Y)及组合构建的PM2.5年均浓度空间估算RBF神经网络模型交叉检验结果如表 1所示。不同单因素与多因素组合构建的RBF神经网络估算效果都存在一定差异, 人口密度对PM2.5年均浓度空间变异的贡献作用不可忽视。

      表 1  基于RBF网络的关键影响因素筛选

      Table 1.  Selection of Key Factors Based on RBF Network

      关键影响因素 MSE/(μg·m-3) MAE/(μg·m-3) RE/% R2
      XY 0.91 0.54 6.11 0.67
      XY、人口密度 0.42 0.52 4.14 0.90
      XY、降水 0.95 0.78 7.55 0.76
      XY、道路总长度 1.26 0.89 7.98 0.55
      XY、人口密度、降水 1.08 0.86 8.05 0.63
      XY、人口密度、道路总长度 1.11 0.84 8.50 0.66
      XY、降水、道路总长度 0.85 0.73 6.12 0.86
      XY、人口密度、降水、道路总长度 0.87 0.85 8.25 0.82

      表 1可知, 基于人口密度单因素的RBF神经网络估算效果最优, 而基于道路总长度单因素的最差。前者MSE、MAE与RE值均为所有网络中最小值, 分别为0.42 μg/m3、0.52 μg/m3、4.14%, R2则最大, 达到0.90;后者R2最小(0.55), MSE(1.26 μg/m3)与MAE(0.89 μg/m3)最大。基于双因素的RBF神经网络中, 降水和道路总长度耦合下的模型比其他组合效果更好, 总体精度位列所有网络中的第二, 其MSE、MAE、RE和R2值分别为0.85 μg/m3、0.73 μg/m3、6.12%和0.86, 而基于人口密度和道路总长度的效果最差。基于人口密度、降水和道路总长度三者耦合下的RBF神经网络空间估算精度整体第三, 这与已报道的PM2.5浓度在多因素耦合情况下效果更好的结论不一致[9]。究其原因:一方面, 已有研究是对不同类型变量进行对比, 并没有进一步对比分析单个因素或多个因素耦合对模型的影响; 另一方面, 在建模过程中只考虑因素对大气污染浓度的单独作用(即因子作用相互独立), 而忽略了输入变量间可能存在的交互作用。事实上, 当两个及以上因素共同作用时, 还可能会增加或减弱对因变量的解释力[18]。例如邹滨等[19]的研究表明, 气象因素的引入会增强土地利用因素对PM2.5浓度空间分布的解释作用, 而Guo等[20]发现相对湿度会弱化气溶胶光学厚度与PM2.5浓度的相关关系。

    • 基于上述结果, 分别构建仅基于地理坐标的RBF神经网络、耦合地理坐标与人口要素的RBF神经网络CoRBF、OK、耦合人口要素的协同克里格插值CK方法估算研究区PM2.5年均浓度。图 2是训练样本比例分别为15%、35%、55%、75%、95%时, 检验样本观测值与4种方法PM2.5估算浓度折线分布(每个数据点代表一个监测点的浓度值)。

      图  2  检验样本的PM2.5浓度观测值与各方法估算值

      Figure 2.  Observations and Estimations of PM2.5 in Validation Sets Based on Four Methods

      图 2可知, 不同比例PM2.5变化整体趋势基本一致, 但在高低值区有差距。不同方法下模型效果之间存在差异, 以训练样本比例为55%为例, OK方法估算值起伏不大, 无法表现出观测值的高值低值分布。这是由于克里格方法具有较强的平滑作用, 影响了污染物空间变异的数据统计特征。CK方法通过辅助变量融合了更多的空间信息, 较OK方法在一定程度上略有起伏, 空间插值效果得到提升。基于RBF神经网络方法的估算能力较OK方法好, 在估算高低值方面具有一定优势, 这种现象即使在训练样本点较少时也比较显著。说明RBF神经网络能够克服克里格插值的平滑效应, 这主要是因为神经网络方法具有以任意精度逼近任意连续函数的能力。基于CoRBF神经网络较前3种方法, 其估算效果显著增强, 可以基本表现出观测值的变化趋势。这与Caselli等[21]、Asadollahfardi等[22]利用神经网络预测大气颗粒物浓度结果一致, 即耦合特征影响因素的神经网络预测效果比仅依靠污染观测数据效果好。同时, 该结果也进一步佐证了PM2.5浓度的空间分布受人口密度的影响较大这一结论。

    • 图 3为4种方法精度评价指标MSE、MAE、RE、R2与IOA随训练样本比例增加的变化情况(每个数据点代表给定训练样本比例下精度指标的值)。总体而言, PM2.5浓度空间估算的整体效果CK最优, 而OK最差, 研究采用方法的精度随着训练样本比例的增大而波动提升。

      图  3  基于各种方法的PM2.5浓度估算值与观测值间的精度对比

      Figure 3.  Accuracy Comparison of Between Observations and Estimations of PM2.5 Based on Four Methods

      在相同训练比例下, 除IOA外, 训练方法整体效果基本均为CK > CoRBF > RBF > OK。例如, 30%、60%与90%样本比例下, 4种方法MSE依次为(5.00 μg/m3、5.36 μg/m3、5.60 μg/m3、5.90 μg/m3)、(3.93 μg/m3、4.34 μg/m3、4.50 μg/m3、4.88 μg/m3)与(2.45 μg/m3、2.64 μg/m3、2.67 μg/m3、2.70 μg/m3); 决定系数R2分别为(0.50、0.51、0.53、0.57)、(0.52、0.54、0.56、0.62)与(0.64、0.67、0.70、0.70。但是在个别比例存在波动, 如75%比例下, 基于OK方法及RBF方法的PM2.5估算浓度值与观测值的MAE分别为1.41 μg/m3与1.45 μg/m3; 又如在50%比例下, 基于CK与CoRBF方法浓度估值与观测值的R2分别为0.52与0.54。对于IOA, 则当样本数量较少时(≤50%), 整体上CoRBF最高, RBF次之, 而OK最低, 当样本数量增加, CK > CoRBF > RBF且趋于接近。结果进一步证明融入人口因素的CK方法与CoRBF神经网络比OK与RBF方法PM2.5估算效果好, 也说明了人口因素在估算PM2.5浓度时作为输入样本的必要性。结合图 2图 3, 4种方法中, CK方法在研究区PM2.5浓度估算中偏离实际观测值最小, 模型模拟精度最高, 而CoRBF估算数据与PM2.5观测值一致性最高, 在研究区内最能表现出数据的变化趋势。这种现象产生的原因可能是估算点与其他监测点在一定空间距离上存在关联性, CK方法的每一估值都由其邻近观测值加权平均计算而得到, 在一定程度上提升了方法统计精度, 但同时, 由于这一平滑作用, 在保持观测数据的统计特征方面则稍逊一筹。

      随着样本比例的增加, 4种方法的精度整体呈波动上升趋势, MSE、MAE与RE分别从5%比例下的6.00~6.60 μg/m3、1.69~1.75 μg/m3、25%~27%下降至95%比例下的2.44~3.59 μg/m3、1.20~1.50 μg/m3、14%~17%, R2与IOA则分别从0.42~0.46与0.77~0.80上升至0.64~0.86与0.87~0.92。当训练样本分别占样本总数的5%、55%、95%时, 基于OK方法的检验样本位置点的PM2.5浓度估算值与其相应观测值之间的MSE分别为6.32 μg/m3、4.70 μg/m3、3.59 μg/m3, RBF分别为6.60 μg/m3、4.30 μg/m3、2.88 μg/m3。CK和CoRBF方法比OK和RBF方法的MSE值分别降低了0.30 μg/m3、0.84 μg/m3、1.15 μg/m3和0.52 μg/m3、0.20 μg/m3、0.52 μg/m3。MAE、RE的下降趋势与之相似, R2、IOA评价指标的上升趋势也进一步反映了这一结果。与文献[9](R2=0.39~0.81)、文献[23](R2=0.66)耦合地理特征要素开展城市PM2.5浓度神经网络空间估算研究结果相比, 当训练样本比例达到80%以上, 本研究预测精度的优势性逐渐显现。然而, 在相邻比例区间内, 不同方法的精度存在一定波动, OK方法波动最大, 如训练比例在65%、50%和5%时, 各方法MSE误差出现极大值, 训练比例在5%的估算效果比10%效果好。这是因为除数量外, 模型精度还受所选样本能否正确反映整体数据内在规律性及其分布特征的影响。

    • 图 4(a)图 4(b)分别为CK与CoRBF神经网络估算得到的PM2.5浓度空间分布。对比监测点年均观测值(图 4(c))可知, 两种方法估算得到的PM2.5浓度整体空间差异特征与观测值基本一致, 即东部高于西部, 西海岸及中西部存在范围较小的高值区, 进一步说明CK与CoRBF都能有效实现PM2.5浓度空间估算。CoRBF神经网络的估算值体现了较为细致的空间差异, 这一现象在东部各州尤为显著。相较而言, CK插值的PM2.5浓度空间分布具有更为显著的空间平滑特征。

      图  4  分布模式点集

      Figure 4.  Spatial Patterns Dens

      从比关键影响因素人口密度的空间分布图 4(d)来看, 人口密度越大, PM2.5浓度的估算值与观测值都越高, 东部地区人口密度的区县差异与CoRBF神经网络估算的PM2.5浓度差异几乎一致, 说明相较于CK, 人口要素对CoRBF神经网络的贡献作用更大。

    • 本文对不同数据情景下人工神经网络与克里格插值对PM2.5浓度空间分布估算的效果差异进行分析, 得到如下结论:

      1) 人口因素在分析PM2.5空间变异方面比其他单因素及多因素耦合效果好;

      2) RBF神经网络方法的PM2.5浓度空间估算效果整体优于OK方法, 但在训练样本较少时差异较小, 耦合人口关键影响因素的CoRBF神经网络与CK方法的PM2.5浓度估算结果比未耦合该因素的RBF与OK更优;

      3) RBF、CoRBF神经网络、OK以及CK方法都能够有效实现PM2.5浓度的空间估算, 且精度整体随训练样本比例增大而波动上升。在考虑人口密度这一辅助因素前提下, CoRBF神经网络方法在保持观测数据的统计特征方面是最好的模型, 然而CK方法在误差指标上更显优越性;

      4) 基于CK插值与CoRBF神经网络的PM2.5浓度空间估算结果都能够较好地体现真实的污染分异特征, CK的平滑效应更为显著。

      但出于对数据平稳特征的考虑, 本研究仅以美国本土PM2.5浓度数据为对象, 在年均尺度开展了上述两种方法的比较。随着车载移动监测和众源监测等新兴、低成本污染监测方式以及多源时空大数据的逐渐兴起, 未来还可以在更多区域, 从季节、月均、日均等更为精细的尺度进一步探索各种大气污染浓度空间估算方法的适用条件。

参考文献 (23)

目录

    /

    返回文章
    返回