-
气温是地球表面能量平衡的一个很好指标,在气象、水文等众多领域有着广泛的应用需求[1]。通过对气象站点气温插值是获得较高精度地面气温分布的主要方法,然而常规插值方法在地形地貌复杂多样、气象站点分布稀疏地区对气温空间分布模拟的吻合程度不高[2]。目前,考虑了气温与环境因子(如经度、纬度、海拔等)之间的线性回归关系的插值方法明显改善了气温精度[3-7],其中由于回归克里格(regression Kriging,RK)在充分利用其他辅助信息的同时还能考虑变量的空间自相关性,在所有插值方法中是最好的。但这些方法使用的线性回归是基于普通最小二乘法的全局回归。该模型假定变量关系具有同质性且误差独立分布,掩盖了回归关系的局部特征,其结果也仅仅是研究区某种关系的平均化[8],并没有顾及回归关系的空间非平稳性。
地理加权回归(geographically weighted regression,GWR)是一种局部的空间回归方法,可以用来探测空间关系的非平稳性。目前,基于GWR的插值方法已用于诸如城市地理学、社会经济学等学科领域中[9-12]。这些研究结果表明回归系数在空间上存在较强的空间变异性,GWR可以有效揭示在不同空间位置上不同自变量对因变量的影响。GWRK是GWR与RK结合,混合地理加权回归(mixed geographically weighted regression,mGWR)则是一种同时进行全局回归和局部回归的地理加权回归模型。mGWRK是mGWR与RK的结合,能够在顾及回归关系空间非平稳性的同时考虑回归残差的空间自相关。张国峰等[13]利用海拔、纬度、海陆距离等辅助变量分别采用GWRK与RK对海南岛的平均气温进行插值研究,结果表明,在相同的辅助变量情况下,GWRK方法的插值精度优于RK方法。
在实际应用中,并不是所有的辅助变量都存在空间变异性,即某些变量对目标变量的影响在空间上是一致的[8]。本研究在站点密度更低、同时引入覆被以及地形因子的条件下,通过对变量进行空间变异性检验,确定全局变量与局部变量,建立GWRK、mGWRK模型对月平均气温进行插值,并与RK比较。
HTML
-
四川省位于中国西南地区,地形地貌复杂,地势西高东低。全省按地貌可分为川西北高原、川东盆地与川西南山地[14]。全省气象站点较少,空间上分布也不均匀,主要集中分布在四川盆地以及川西南人口较集中、海拔较低的地区(见图 1)。
图 1中所用100个区域自动站点(2008年)月平均气温数据下载于气象科学数据共享中心,精度0.1 ℃。其中80%的站点为建模站,用于回归建模插值;20%的站点为验证站,用于插值结果检验。MODIS月植被指数产品MOD13A3,精度1 km,来自USGS(United States Geological Surrey)。DEM数据,精度30 m,源于中国科学院计算机网络信息中心国际科学数据镜像网站。这些数据先经过严格的重采样、投影变换、拼接、裁剪等处理,并用DEM数据生成研究区的坡度、坡向,然后根据每个站点所在的位置提取相应的海拔高程、坡度、坡向以及植被指数。
-
以2008年3月平均气温为例,采用基于全局回归的RK方法、基于局部回归的GWRK方法以及基于局部和全局回归的mGWRK方法对平均气温进行插值研究,实证分析比较各模型插值精度。并采用上述3种方法与RK方法对2008年12个月的月平均气温进行插值,分季节与地区对其精度进行比较。
-
描述性统计分析是对一组数据的各种特征进行分析,其目的是便于描述测量样本的各种特征及其所代表的总体特征。对研究区内100个气象站点的月平均气温观测数据进行描述性统计。同时对环境变量进行共线性检验,当方差膨胀因子(variance inflation factor,VIF)大于7.5时,说明变量间存在较强的共线性,则应移除相应变量去除变量间的共线性。
-
RK借助的是目标变量与环境变量之间的相关性,根据全局普通线性回归模型(ordinary linearity regression,OLR)建立目标变量与环境变量的回归关系,采用最小二乘法得到目标变量的最优无偏估计。对于没有观测数据的某点xi,其y(xi)值的确定是先由回归模型确定xi处的确定性趋势项$\hat m\left( {{x_i}} \right)$,再用普通克里格(ordinary Kriging,OK)对回归模型的残差插值得到xi处的残差$\hat \varepsilon \left( {{x_i}} \right)$,最后将残差与确定性趋势项相加便得到了xi点的模拟值y(xi)[9, 15]:
-
GWRK是GWR与RK的结合,将RK中的全局线性回归用GWR中的局部回归代替,对GWR模型中代表随机性的残差进行普通克里格插值[9],插值结果能够揭示出被空间非平稳性所掩盖的一些局部变化。GWR是对OLR的扩展,将数据的地理位置嵌入到回归模型中,在点x(ui, vi)处的目标变量与环境变量的回归系数不再是基于全局回归获得的常量,而是利用与点x(ui, vi)相邻的数据点进行局部加权回归得到,其系数与位置有关[16-17]。在点处的GWR模型为:
式中,(ui, vi)为第i个采样点的坐标;βk(ui, vi)是第i个采样点上的第k个回归参数,是关于地理位置的函数;εi~N(0, σ2)。为表示方便,将βk(ui, vi)简写为βik。
根据加权最小二乘法原理,在观测点i的回归系数ai由下式得到:
其中,Wij为权函数,是回归点i与其相邻的某个观测点j之间距离的单调递减函数。本研究采用bi-squarev函数作为空间权函数[16-17]:
式中,dij为回归点i与相邻某点j之间的距离;b为带宽(bandwidth),描述的是空间权重与距离之间的一种函数关系。根据回归点周围采样点的疏密程度,采用自适应权函数带宽优化方法和Akaike信息量准则(Akaike information criterion, AIC)确定最优带宽。
月平均气温地理加权回归克里格插值过程为:在GWR 4.0中构建月平均气温与环境变量的GWR模型,并对局部回归变量进行空间变异性检验,当DIFF标准在0~2之间时,说明变量的空间变异性较弱,这时候将该变量作为全局回归变量建立的混合地理加权回归模型(mGWR)[8, 18]为:
然后对模型中代表随机性的残差进行地统计分析和普通克里格插值,得到残差项表面${{\hat \varepsilon }_i}$;最后将两表面进行栅格运算,得到月平均气温的地理加权回归克里格插值结果。其插值过程可表示为:
-
本研究采用的评价指标为:
式中,MAE(mean absolute error)为平均绝对误差,RMSE(root mean square error)为均方根误差,都是对插值结果精度的度量,值越小, 说明插值结果越精确;n为验证站点的个数;yi为第i个站点的观测值;${{{\hat y}_i}}$为第i个验证站点的模拟值。
1.1. 研究区与实验数据
1.2. 建模方法
1.2.1. 平均气温描述性统计与环境变量共线性检验
1.2.2. 回归克里格
1.2.3. 地理加权回归克里格
1.3. 精度评价
-
100个气象站点2008年3月的月平均气温在-6~19.7 ℃之间,均值为11.25 ℃,标准差为5.44 ℃,偏度为-1.27,峰度为0.99,变异系数为48.0%, 属于中等变异。月平均气温近似服从正态分布。同时,海拔高度(VIF=1.406)、坡度(VIF=1.22)、坡向(VIF=1.04)以及植被指数(VIF=1.23)4个环境变量方差膨胀因子均小于2,说明环境变量间不存在共线性。
-
建立平均气温与坡度(S)、坡向(A)、植被指数(E)以及海拔高度(D)之间的线性回归关系:
普通线性回归所得到的系数都是常数,表达的是各个环境变量对目标变量在研究区范围内影响的平均值。回归模型的R2为0.795,调整R2为0.782。
-
对GWRK方法,建立如下GWR模型:
模型的R2为0.922,调整R2为0.895。对GWR模型逐点回归得到的每个环境变量系数在ArcGIS中进行可视化显示,能够直观地反映环境变量系数在空间上的变化,反映了环境变量在不同位置对平均气温的不同影响(见图 2)。
从局部变量的空间变异检验结果(海拔高度(DIFF=0.501)、坡度(DIFF=-1.159)、坡向(DIFF=-1.903)、植被指数(DIFF= -9.705)以及常数项(DIFF=-17.167))可知,海拔高度在空间上存在较弱的变异性。为提高模型模拟的精度,将海拔高度与坡度设为全局变量,建立如下的混合地理加权回归模型:
其中,海拔高度、坡度为全局变量,其余为局部变量,且存在较强的空间变异性。回归模型的R2为0.911,调整R2为0.891。
根据回归模型的R2与调整R2可以看出,基于局部回归的GWRK方法和mGWRK方法对月平均气温的模拟精度明显优于只基于全局回归的RK方法。
-
普通线性回归后残差峰度为4.195 2, 偏度为0.414 8, 残差近似正态分布,适合进行地统计插值。理论上,最优模型估计具有误差标准平均值最接近0、均方根最小和平均标准误差最接近1的性质[19-20]。由表 1可以看出,回归后残差拟合的理论半方差模型为指数模型,且块基比小于25%,表明回归后的残差存在比较强的空间自相关性,可以使用克里格对其插值。
模型 块基比/% 标准平均值 均方根 平均标准误差 球面 19.66 0.008 4 1.435 0 1.654 4 指数 18.35 0.005 1 1.444 1 1.590 7 高斯 17.23 0.011 8 1.498 2 1.652 4 Table 1. Semivariance Parameters of RK Method Residuals
对GWRK、mGWRK的残差进行地统计分析,结果表明残差存在空间自相关性,适合克里格插值。在ArcGIS中选择合适的模型对残差进行克里格插值,得到残差的空间分布。
-
整体上,3种方法插值气温的范围较一致,也没有出现其他研究中的牛眼现象[9, 13]。插值气温空间分布可分为川西北、盆地以及川西南3个温度亚区(见图 3)。
根据四川省2008年3月平均温度实际分布特点:川西高原北部部分地区气温在-10 ℃以下,河谷地区较暖;川西南金沙江干热河谷地区由于河谷深切,焚风效应明显,气温在15 ℃以上;川南盆地气温高于川北盆地[21]。mGWRK插值气温的空间分布与实际情况最接近,RK插值气温在四川盆地高于川西南河谷地区,不符合实际情况。因此,在气温插值结果空间分布与实际情况的吻合程度上,GWRK、mGWRK优于RK方法。
-
RK、GWRK、mGWRK模型模拟值与实测值之间的平均绝对误差分别为0.66 ℃、0.51 ℃、0.44 ℃,均方根误差分别为0.83 ℃、0.64 ℃、0.55 ℃。模型的平均绝对误差、均方根误差依次降低,表明其精度依次增大。结合各模型的R2不难得出,无论是模型对因变量的解释能力还是模型模拟精度,GWRK、mGWRK也优于RK方法, 即GWRK、mGWRK模型插值精度较高。
-
对变量进行变异性检验后,按检验结果将海拔高度在2、3、7、10、11、12月,坡度在9月,坡向在3、5、6、8月的变量设置为全局变量,其余均为局部变量。采用RK与GWRK、mGWRK对2008年12个月月平均气温站点数据插值,并与站点实测值进行比较,得到插值精度的年变化曲线(见图 4)。为表述方便,将GWRK或mGWRK模型记为(m)GWRK。
整体上,两种方法的插值精度都较高,(m)GWRK插值精度要优于RK方法。其中RK平均绝对误差在0.4~1.1 ℃之间,均方根误差在0.5~1.5 ℃之间;(m)GWRK平均绝对误差则在0.38~0.70 ℃之间,均方根误差范围为0.45~0.92 ℃。但(m)GWRK插值精度并不是总优于RK,从图 4可以看出,RK插值精度在7月与9月要优于(m)GERK。
在变化趋势上,两种方法在冬半年(1、2、3、4、11、12月)插值精度低于夏半年(5、6、7、8、9、10月),且冬半年变化较大, 越接近夏半年,其精度越高,夏半年则较平稳。(m)GWRK与RK在冬半年插值精度的差异大于夏半年,且变化较大,越接近夏半年,差异越小。其中冬半年平均绝对误差与均方根误差差异最大在12月,分别为0.55 ℃、0.61 ℃,最小在3月,分别为0.07 ℃、0.10 ℃;夏半年最大在5月,分别为0.21 ℃、0.26 ℃,最小在10月,分别为0.04 ℃、0.01 ℃。
-
将验证站点按地形划分为川西北站点、川西南站点与盆地站点(见图 1),分别验证其精度,得到不同地区插值精度变化(见图 5)。整体上,川西地区插值精度最低且年际变化最大,冬半年精度低于夏半年,越靠近夏半年精度越高;川西南地区插值精度次之,年际变化较小,也具有冬半年精度低、越接近夏半年精度越高的趋势;盆地地区插值精度最高,变化也最平稳,全年都保持最高的插值精度。在全年大多数月份,(m)GWRK方法在不同的地区插值精度都要优于RK方法,特别是在冬半年的川西南地区。但冬半年的1月与4月,在川西北地区RK则要明显优于(m)GWRK。
2.1. 平均气温描述性统计与环境变量共线性检验
2.2. 平均气温与环境变量回归分析
2.2.1. 普通线性回归分析
2.2.2. 地理加权回归分析
2.3. 回归残差地统计分析
2.4. 模型精度比较
2.4.1. 插值结果空间分布对比
2.4.2. 插值精度对比
2.5. 插值精度的变化因素
2.5.1. 插值精度及其差异的季节变化
2.5.2. 插值精度的地区变化
-
GWR基于地理学第一定律,考虑了空间关系的局部特征,体现了回归关系的空间非平稳性。根据四川省地形地貌特征复杂、观测站点分布稀疏不均匀的特点,本研究采用了具有局部回归变量的GWRK与mGWRK方法对月平均气温插值,该方法不仅插值精度高,而且气温插值结果空间分布特征与实际情况也很吻合。选取了合适局部回归变量,更加准确地表达回归关系空间非平稳性的mGWRK方法在所有方法中其插值结果最优。其次无论是冬半年还是夏半年,(m)GWRK方法插值精度在地形变化较小的盆地插值精度是最优的,除了地形因素影响小外,还与该地区气象站点较多有关。
季节上,(m)GWRK方法相对于RK方法对月平均气温插值的改进主要体现在冬半年,夏半年的改进较小;地区上,(m)GWRK方法相对于RK方法在地形地貌变化大、站点稀疏的川西南、川西北最为明显,地形地貌变化较小、站点较密集的盆地改进相对较小。同时RK在7月与9月插值精度优于(m)GWRK,说明在四川省这种复杂地形条件下,并没有一个固定最优的月平均气温插值方法。
GWRK实现了变量空间自相关和误差空间自相关的空间效应混合模拟,理论框架具有明显优势。采用(m)GWRK对四川省月平均气温进行插值,很好地探究了回归关系的空间非平稳性,得到了较高精度的插值结果。由于缺乏相应的气象站点资料,没有将川西北高原及川西南一些终年积雪地区的永冻型气候表现出来,有待今后进一步研究。