留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于扩展场强模型的稀疏AQI空间插值新算法

师泽源 赵俭辉 张文昱 胡勇 武小平

师泽源, 赵俭辉, 张文昱, 胡勇, 武小平. 基于扩展场强模型的稀疏AQI空间插值新算法[J]. 武汉大学学报 ● 信息科学版, 2017, 42(7): 968-974. doi: 10.13203/j.whugis20140980
引用本文: 师泽源, 赵俭辉, 张文昱, 胡勇, 武小平. 基于扩展场强模型的稀疏AQI空间插值新算法[J]. 武汉大学学报 ● 信息科学版, 2017, 42(7): 968-974. doi: 10.13203/j.whugis20140980
SHI Zeyuan, ZHAO Jianhui, ZHANG Wenyu, HU Yong, WU Xiaoping. New Spatial Interpolation Algorithm for Sparse AQI Based on Extended Field Intensity Model[J]. Geomatics and Information Science of Wuhan University, 2017, 42(7): 968-974. doi: 10.13203/j.whugis20140980
Citation: SHI Zeyuan, ZHAO Jianhui, ZHANG Wenyu, HU Yong, WU Xiaoping. New Spatial Interpolation Algorithm for Sparse AQI Based on Extended Field Intensity Model[J]. Geomatics and Information Science of Wuhan University, 2017, 42(7): 968-974. doi: 10.13203/j.whugis20140980

基于扩展场强模型的稀疏AQI空间插值新算法

doi: 10.13203/j.whugis20140980
基金项目: 

中国空间技术研究院创新基金 2014

装备预研基金 9140A27040414JB11078

湖北省科技支撑计划 2014BAA149

详细信息
    作者简介:

    师泽源, 硕士生, 主要从事计算机图形图像学研究。353621827@qq.com

    通讯作者: 赵俭辉, 博士, 副教授。jianhuizhao@whu.edu.cn
  • 中图分类号: P208;TP391;TP751

New Spatial Interpolation Algorithm for Sparse AQI Based on Extended Field Intensity Model

Funds: 

The Innovation Foundation from China Academy of Space Technology 2014

the Equipment Development Foundation 9140A27040414JB11078

the Hubei Support Plan for Science & Technology 2014BAA149

More Information
    Author Bio:

    SHI Zeyuan, postgraduate, specializes in computer graphics. E-mail:353621827@qq.comm

    Corresponding author: ZHAO Jianhui, PhD, associate professor. E-mail: jianhuizhao@whu.edu.cn
图(8) / 表(2)
计量
  • 文章访问数:  1207
  • HTML全文浏览量:  56
  • PDF下载量:  320
  • 被引次数: 0
出版历程
  • 收稿日期:  2015-08-12
  • 刊出日期:  2017-07-05

基于扩展场强模型的稀疏AQI空间插值新算法

doi: 10.13203/j.whugis20140980
    基金项目:

    中国空间技术研究院创新基金 2014

    装备预研基金 9140A27040414JB11078

    湖北省科技支撑计划 2014BAA149

    作者简介:

    师泽源, 硕士生, 主要从事计算机图形图像学研究。353621827@qq.com

    通讯作者: 赵俭辉, 博士, 副教授。jianhuizhao@whu.edu.cn
  • 中图分类号: P208;TP391;TP751

摘要: 针对空气质量指数(AQI)监测点分布稀疏,现有空间插值算法精度不高问题,提出了新的扩展场强模型与算法。扩展场强单参数模型引入参数c控制场强衰减程度,通过c与误差关系图并借助二分查找法计算最优c值。扩展场强双参数模型加入参数k调整场强影响范围,通过ck与误差关系图并借助迭代双线性插值法求解最优ck组合。以北京、天津、武汉、郑州四个城市2014-08~2015-04的50组AQI监测值为实验数据,采用交叉验证法并以RMSE、AME、PAEE为评价指标,实现了单参与双参模型及参数选取,然后与克里金法及类似的反距离加权法进行对比。实验证明,扩展场强模型能够得到针对稀疏AQI的更高插值精度,且双参数模型精度高于单参数模型。本文算法适用于采样点数目与位置均固定的稀疏数据插值,并可推广至其他类型与维度的空间数据。

English Abstract

师泽源, 赵俭辉, 张文昱, 胡勇, 武小平. 基于扩展场强模型的稀疏AQI空间插值新算法[J]. 武汉大学学报 ● 信息科学版, 2017, 42(7): 968-974. doi: 10.13203/j.whugis20140980
引用本文: 师泽源, 赵俭辉, 张文昱, 胡勇, 武小平. 基于扩展场强模型的稀疏AQI空间插值新算法[J]. 武汉大学学报 ● 信息科学版, 2017, 42(7): 968-974. doi: 10.13203/j.whugis20140980
SHI Zeyuan, ZHAO Jianhui, ZHANG Wenyu, HU Yong, WU Xiaoping. New Spatial Interpolation Algorithm for Sparse AQI Based on Extended Field Intensity Model[J]. Geomatics and Information Science of Wuhan University, 2017, 42(7): 968-974. doi: 10.13203/j.whugis20140980
Citation: SHI Zeyuan, ZHAO Jianhui, ZHANG Wenyu, HU Yong, WU Xiaoping. New Spatial Interpolation Algorithm for Sparse AQI Based on Extended Field Intensity Model[J]. Geomatics and Information Science of Wuhan University, 2017, 42(7): 968-974. doi: 10.13203/j.whugis20140980
  • 近年来空气污染增多且危害加重,因此空气污染监测与预报已成为关系国计民生的大事。我国已用空气质量指数(AQI)替代原有的空气污染指数(API),且针对单项污染物还规定了分指数,参与AQI评价的主要污染物为PM2.5、PM10、SO2、NO2、O3、CO。目前, AQI值只能通过分布稀疏的气象站点对整个区域进行有限的采样测量。例如,北京市AQI实时监测站只有12个,武汉市只有10个。这些零散分布的监测站无法提供测量点之外位置的AQI,无法实现区域的全面监测。

    基于监测站采样点集计算区域中任意坐标的值,是典型的空间插值问题。现有空间插值算法主要包括线性插值、最临近点插值、多项式插值、最小曲率插值、样条函数插值、反距离加权插值、克里金插值等[1-7]。Xu等借助反距离加权法对长江三角洲的SO2与NO2测量数据进行空间插值[4]。Li等用反距离加权法对美国48个州每天的PM2.5数据进行时空插值[6]。Zou等借助克里金插值法分析德克萨斯州1996年和2002年空气污染的时空变化特征[8]。Narashid等将遥感技术和克里金法结合,基于6个监测点数据生成CO和PM10插值图[10]。刘永伟等用反距离加权法、样条函数法和克里金法计算120个城市API时空分布并对插值结果进行交叉检验,发现克里金法精度最高[12]。Lim等使用克里金法、反距离加权法、最邻近点法得到PM2.5的插值图,通过与真实数据的对比验证了克里金法误差最小[13]。因为克里金法的优点,使其在很多场合得到了广泛应用[14-16],如MRI插值、水面高度测量、土壤湿度测量、地表温度测量等。

    对于空气污染监测,用于空间插值的AQI数据是过于稀疏的采样点集,即使克里金算法插值结果的可信度也不够高。究其原因,现有空间插值法在考虑采样点集的影响时,用固定的参数(如反距离加权法的距离指数)或函数(如克里金法的典型模型)描述距离与样本因素,导致距离与样本的作用同质且单一。而在现实中,可能因地势、风向、建筑物遮挡等影响造成样本点对某一空间插值点的作用并不一致,当采样点集过于稀疏时其异质特点更为明显。因此, 需要设计新的空间插值模型,并通过参数表达稀疏插值的异质性以进一步提高插值精度。针对此问题,本文提出了一种基于扩展场强模型的用于稀疏AQI数据的空间插值新算法。

    • 空间插值的理论假设是分布对象都是空间相关的,即彼此接近的对象往往具有相似的特征。因此,物理学中常用的场强模型适用于空间插值。设Q为点电荷电量,k为常系数,在距离点电荷r处的空间某点产生的电场强度为:

      $$ E = \frac{{kQ}}{{{r^2}}} $$ (1)

      式中,距离对场强的影响过于单一,而不同类型插值受距离影响的方式往往不同。因此,本文提出了更加普适的扩展场强模型。基于描述空间距离的函数复杂度,模型又分为单参数与双参数两种。

      为了描述新模型及其参数,以武汉市AQI监测为例进行说明。武汉市面积1 171.70 km2,共设10个测量点,横坐标经度范围从113.8到114.5,纵坐标纬度范围从30.2到30.7。监测站每小时测量一次,2014年7月某时的AQI值如表 1所示。

      表 1  武汉市某时的AQI测量值

      Table 1.  Monitored AQI of Wuhan at a Time

      测量点 经度/(°) 纬度/(°) AQI
      东湖梨园 114.371 9 30.573 3 60
      汉阳月湖 114.255 2 30.561 8 75
      汉口花桥 114.281 9 30.618 4 67
      武昌紫阳 114.301 5 30.535 7 69
      青山钢花 114.381 2 30.618 8 97
      沌口新区 114.134 4 30.470 2 66
      汉口江滩 114.305 2 30.586 7 56
      东湖高新 114.431 7 30.504 2 90
      吴家山 114.135 2 30.633 1 71
      沉湖七壕 113.872 0 30.293 7 59
    • 在式(1) 中,场强随距离的衰减程度是固定的。因此,增加一个参数c,把场强与距离的关系从固定改为可调。单参数扩展场强模型为:

      $$ e = \frac{q}{{{r^2} + c}} $$ (2)

      式中,q为空间中某监测点的AQI测量值;e为受q影响在待测点处产生的值;r为待测点与监测点的距离;c为参数,为避免出现r2+c=0时e无穷大情况,设置c>0。设测量点P1P2的经纬度(经度longitude-lo; 纬度latitude-la)地理坐标分别为(lo1, la1)与(lo2, la2),则两点之间距离$ {r_{12}} = \sqrt {{{\left( {l{o_2} - l{o_1}} \right)}^2} + {{\left( {l{a_2} - l{a_1}} \right)}^2}} $。式(2) 基本表达式$ \frac{1}{{{r^2} + c}} $曲线如图 1所示。由图 1可知,不同c值对场强衰减程度有不同影响。参数c值越小,场强衰减程度越强;c值越大,则场强衰减程度越弱。

      图  1  参数c值对场强衰减的影响

      Figure 1.  Effects on Field Intensity Attenuation from c

      设空间中有N个已知AQI测量点,对于空间中任一坐标i,该点受所有AQI测量值影响的空间插值结果为:

      $$ {E_i} = \sum\limits_{j = 1}^N {\frac{{{q_j}}}{{{r_i}{{_j}^2} + c}}} $$ (3)

      式中,qj是第j个监测点AQI测量值;rij是坐标i与监测点j之间的空间距离;Ei是受N个AQI测量值影响叠加后的值。

    • 为了找到合适的参数c,进一步分析c值与插值结果精度之间的关系。为描述插值结果精度,采用交叉验证的方法,以测量点j为插值点,计算j点受其他N-1个测量点影响而得到的叠加值Ej,则点j处的测量误差(叠加值与实测值之差)为:

      $$ {\varepsilon _j} = {E_j}-{q_j} $$ (4)

      依次计算N个测量点处的误差,可以得到参数c对应的均方误差RMSE:

      $$ {\rm{RMSE}} = \frac{{\sqrt {\varepsilon _{_1}^{^2} + \varepsilon _{_2}^{^2} + \cdots + \varepsilon _{_N}^{^2}} }}{N} $$ (5)

      表 1数据为例,描述参数c对RMSE的影响。若c值过小,场强衰减程度太强,会导致不同距离样本点产生的影响差别太大;若c值过大,场强衰减程度太弱,会导致不同距离样本点产生的影响差别太小。因此,参数c的取值范围设置为[1.0, 50.0],用来调整参数c采样数量的变化步长设置为0.1,求出每个c值对应的RMSE,可得由490组数据构成的两者之间关系图,如图 2所示。

      图  2  参数c与RMSE之间的关系图

      Figure 2.  The Relationship Between c and RMSE

      显然,图 2数据分布具有单峰特点。基于二分查找的思想,采用迭代算法求解最优c值(最小RMSE对应的c值),以伪代码表示的步骤如下。

      1) 找到最小RMSE对应的cc0

      2) 初始化查找区间起点csc0左邻c值,查找区间终点cec0右邻c

      3) while |RMSEcs-RMSEce| < 0.0001

      4) 求区间中点$ {c_m} = \frac{{{c_s} + {c_e}}}{2}$

      5) if RMSEcs>RMSEce

      6) cs=cm

      7) else

      8) ce=cm

      9) end if

      10) end while

      11) 输出csce,即最优c

      基于上述迭代求解算法,从图 2中得到针对表 1中AQI数据的最优c值为8.96,此时对应的最小RMSE为13.897 7。

    • 从式(2) 与图 1看出,虽然单参数模型场强随距离的衰减程度可调,但是其影响范围仍然是有限的,即在一定的范围内(如r为-10或10时),场强会衰减到几乎相同的程度。因此,增加第二个参数k用于调整场强影响范围。双参数扩展场强模型为:

      $$ e = \frac{q}{{k{r^2} + c}} $$ (6)

      为避免出现kr2+c=0时e无穷大的情况,设置k>0。当参数c取最优值时,式(6) 基本表达式$ \frac{1}{{k{r^2} + c}} $曲线如图 3,可见不同k值对场强范围有不同程度的影响。参数k值越小,场强影响范围越大;参数k值越大,则场强影响范围越小。

      图  3  参数k值对场强范围的影响

      Figure 3.  Effects on Range of Influence from k

      与式(3) 类似,基于双参数模型,空间中任一坐标处受所有已知测量点影响的叠加AQI值,即空间插值计算公式为:

      $$ {E_i} = \sum\limits_{j = 1}^N {\frac{{{q_j}}}{{k{r_i}{{_j}^2} + c}}} $$ (7)
    • 为了找到合适的参数组合ck,分析参数ck与插值结果精度之间的关系。若k值过小,场强影响范围太大,会导致不同距离样本点产生的影响差别太小;若k值过大,场强影响范围太小,会导致不同距离样本点产生的影响差别太大。同样以表 1数据为例,设参数c取值范围为[1.0, 50.0]且变化步长为0.1,参数k取值范围为[1.0, 50.0]且变化步长为0.1。循环求出每一对ck值对应的RMSE,可得由490×490组数据构成的三者之间的关系图,如图 4所示。

      图  4  参数ck与RMSE之间的关系图

      Figure 4.  The Relationship Between c, k and RMSE

      显然,图 4中RMSE数据有最低点。为了求解参数ck的最优组合(对应着最小RMSE值),采用了迭代双线性插值算法。如图 5所示,以伪代码表示的步骤如下。

      图  5  迭代双线性插值示意图

      Figure 5.  The Iterative Bilinear Interpolation

      1) 找到最小RMSE对应的(k0, c0);

      2) 得到(k0, c0)的4个相邻坐标点:

      Q11(k0-0.1, c0-0.1)、Q12(k0-0.1, c0+0.1)、Q22(k0+0.1, c0+0.1)、Q21(k0+0.1, c0-0.1);

      3) while |RMSE(k0, c0)-RMSE(k, c)| < 0.000 1

      4) 沿k轴方向线性插值:

      $$ \frac{{{k_2}-k}}{{{k_2}-{k_1}}} \times {Q_{11}} + \frac{{k-{k_1}}}{{{k_2} - {k_1}}} \times {Q_{21}}; $$

      5) 沿c轴方向线性插值:

      $$ \frac{{{c_2}-c}}{{{c_2}-{c_1}}} \times {Q_{11}} + \frac{{c-{c_1}}}{{{c_2} - {c_1}}} \times {Q_{12}}; $$

      6) 从插值中找到新的最小RMSE及其对应参数组合(k, c);

      7) 以(k, c)为新(k0, c0)并获取4个新相邻坐标点;

      8) end while;

      9) 输出最优组合(k, c)。

      基于上述算法,从图 4中得到针对表 1中AQI数据的最优ck组合为c=8.62,k= 6.40,此时对应的最小RMSE为13.678 2。

    • 本文选取武汉、北京、天津、郑州等4个城市的AQI值作为测试数据,其中,北京共有12个测量点,天津共有14个测量点,郑州共有9个测量点。针对每个城市监测点的AQI,从2014-08~2015-04中选取了50个时刻的监测值作为实验数据。采用交叉验证法,对每个城市的AQI监测值,依次去掉每个站点的数据,用剩余站点的监测值作为样本数据,插值得到所去掉站点的AQI值,然后基于该站点的插值与实测值得到误差。除了式(5) 的均方误差RMSE,还采用了以下两种评价指标。

      1) 绝对误差均值(AME):

      $$ {\rm{AME}} = \frac{{\sum\limits_{i = 1}^N {\left| {{E_i}-{q_i}} \right|} }}{N} $$ (8)

      2) 平均误差估计百分比(PAEE):

      $$ {\rm{PAEE}} = \frac{{\sum\limits_{i = 1}^N {{{\left( {{E_i}-{q_i}} \right)}^2}} }}{{N\cdot\bar q}} $$ (9)

      式中,q为所有监测点测量值的均值。

    • 基于每个城市的50组实验数据,采用单参数分析法计算每组数据的最优参数c,实验结果如图 6所示,横坐标为50次实验,纵坐标为最优c值。可见,不同城市的最优c值不同,但在同一城市中,最优c值是相对稳定的。原因在于插值模型的场强叠加效果取决于样本点分布,而某一区域中AQI监测点的分布是固定的。实际应用中可以根据少量样本数据计算出任何区域对应的最优c值。基于每个城市最优c值的均值计算,可得平均后的武汉市最优c值为8.964 2,北京市最优c值为10.944 6,天津市最优c值为12.972 0,郑州市最优c值为8.004 0。

      图  6  不同城市的50组最优c

      Figure 6.  The 50 Optimal c Values of Different Cities

      基于每个城市的50组实验数据,采用双参数分析法计算每组数据的最优ck组合,实验结果如图 7所示。可见,同一城市最优ck组合(图 7中圆点)的分布有明显单调性且均在一定范围之内,可以使用低阶多项式拟合。本文尝试了一次与二次多项式拟合,基于拟合结果R值与RMSE的比较,发现二次多项式拟合程度更好,偏差更小。因此,选择二次多项式(图 7中曲线)表达最优ck参数组合的分布,并可计算50组实验数据之外的ck值。以北京市为例,从[8.0, 12.0]范围内任取一个c值,通过拟合的多项式计算k值,所得ck组合(如c= 10.00,k=11.70) 即为一组可用的最优双参数。同时发现,当k=1时,对应的c值就是单参数模型的最优c值,此时的双参数模型(式(6))等同于单参数模型(式(2))。

      图  7  不同城市的50组最优ck组合

      Figure 7.  The 50 Optimal c and k of Different Cities

    • 为了评价扩展场强模型的插值精度,将克里金插值3种典型模型(指数模型、高斯模型、球状模型)与本文算法类似的反距离加权法进行了对比。基于表 1数据,计算出各模型精度评价指标,如表 2所示。可见已有方法中克里金球状模型精度最高,但仍低于本文提出的扩展场强模型,而扩展场强模型的双参数法精度高于单参数法。

      表 2  基于表 1数据的各模型精度比较

      Table 2.  Precision Comparison of the Methods on Tab. 1

      插值方法 RMSE AME PAEE
      克里金高斯模型 15.804 0 13.265 5 3.518 0
      克里金指数模型 18.029 0 14.580 4 4.578 0
      反距离加权法 14.495 0 11.174 5 2.959 2
      克里金球状模型 14.001 8 10.888 9 2.761 0
      扩展场强单参模型 13.897 7 10.745 3 2.720 0
      扩展场强双参模型 13.678 2 10.312 5 2.635 0

      针对每个评价指标,基于每个城市的50组数据,计算各插值模型对应的50个评价值,然后计算其平均值。如图 8所示,在RMSE、AME、PAEE的评价指标均值柱状图中,对应于每个城市,从左到右依次为克里金高斯模型、指数模型、球状模型、反距离加权法、扩展场强单参数模型与双参数模型。可见,克里金球状模型、反距离加权法、扩展场强模型均有较好表现,而扩展场强双参数模型总能得到误差最小的插值结果。

      图  8  基于不同城市50组数据的各模型精度比较

      Figure 8.  Precision Comparison of the Methods on 50 Sets of Data from Different Cities

      扩展场强单参模型训练时只需获取最优c值,计算速度较快;双参模型训练时需要获取最优ck组合,计算速度较慢。例如,在Intel i3 CPU 2.53 GHz,4.00 G RAM与Matlab R2011b配置电脑上,单参数分析耗时2.15 s,双参数分析耗时344.80 s。而在稀疏插值时,对表 1所有数据逐个处理,单参插值计算总耗时0.009 8 s,双参插值总耗时0.010 5 s,两者的计算速度差别很小,但双参模型插值效果更优。因此,在模型参数已经确定的情况下,应使用双参数模型以获得更高精度的插值;在模型参数未知且需尽快得到插值结果的情况下,可以使用训练速度较快的单参数模型。

    • 空气污染通过AQI指数定量描述,但AQI监测点分布过于稀疏,无法提供监测点之外位置的AQI值。而现有的克里金等空间插值法,对稀疏AQI的插值精度不够高。本文基于物理学场强模型,提出了包括单参数与双参数的扩展场强插值新算法,以有效表达稀疏插值的异质性。单参数模型引入参数c控制场强衰减程度,通过c与均方误差的关系图并借助二分查找法计算最优c值。双参数模型加入参数k调整场强影响范围,通过ck与均方误差的关系图并借助迭代双线性插值法求解最优ck组合。为验证新模型的有效性,以北京、天津、武汉、郑州4个城市9个月的50组AQI监测值为实验数据,并以RMSE、AME、PAEE为评价指标进行交叉验证。实验证明同一城市中最优c值是相对稳定的,且最优ck组合分布能够通过二次多项式拟合;扩展场强模型能够得到更好的插值结果,且双参数模型具有最高的插值精度。

      本文算法可推广至其他类型与维度的空间数据,如PM2.5、降水量及3D坐标数据等。当然,新方法针对区域中采样点数目与位置均固定的情况,如果换成另一区域则模型参数需重新训练。因此,本文算法不适用于采样点数目或位置持续变化的数据插值。

参考文献 (16)

目录

    /

    返回文章
    返回