留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

一种空间权重矩阵的优化方法

翟卫欣 程承旗

翟卫欣, 程承旗. 一种空间权重矩阵的优化方法[J]. 武汉大学学报 ● 信息科学版, 2017, 42(6): 731-736. doi: 10.13203/j.whugis20150015
引用本文: 翟卫欣, 程承旗. 一种空间权重矩阵的优化方法[J]. 武汉大学学报 ● 信息科学版, 2017, 42(6): 731-736. doi: 10.13203/j.whugis20150015
ZHAI Weixin, CHENG Chengqi. An Improved Spatial Weights Matrix Construction Strategy[J]. Geomatics and Information Science of Wuhan University, 2017, 42(6): 731-736. doi: 10.13203/j.whugis20150015
Citation: ZHAI Weixin, CHENG Chengqi. An Improved Spatial Weights Matrix Construction Strategy[J]. Geomatics and Information Science of Wuhan University, 2017, 42(6): 731-736. doi: 10.13203/j.whugis20150015

一种空间权重矩阵的优化方法

doi: 10.13203/j.whugis20150015
基金项目: 

高分辨率对地观测系统国家重大专项 03-Y30B06-9001-13/15

高分辨率对地观测系统国家重大专项 30-Y30B13-9003-14/16

测绘地理信息公益性行业科研专项 201512020

详细信息
    作者简介:

    翟卫欣, 博士生, 主要从事空间数据库与空间分析方法研究。pkuzhaiweixin@gmail.com

    通讯作者: 程承旗, 博士, 教授。E-mail:ccq@pku.edu.cn
  • 中图分类号: P208

An Improved Spatial Weights Matrix Construction Strategy

Funds: 

The National Major Projects on High-Resolution Earth Observation System 03-Y30B06-9001-13/15

The National Major Projects on High-Resolution Earth Observation System 30-Y30B13-9003-14/16

Research Projects on Public Services of Mapping and Geography Information 201512020

More Information
图(4)
计量
  • 文章访问数:  1272
  • HTML全文浏览量:  92
  • PDF下载量:  617
  • 被引次数: 0
出版历程
  • 收稿日期:  2016-02-24
  • 刊出日期:  2017-06-05

一种空间权重矩阵的优化方法

doi: 10.13203/j.whugis20150015
    基金项目:

    高分辨率对地观测系统国家重大专项 03-Y30B06-9001-13/15

    高分辨率对地观测系统国家重大专项 30-Y30B13-9003-14/16

    测绘地理信息公益性行业科研专项 201512020

    作者简介:

    翟卫欣, 博士生, 主要从事空间数据库与空间分析方法研究。pkuzhaiweixin@gmail.com

    通讯作者: 程承旗, 博士, 教授。E-mail:ccq@pku.edu.cn
  • 中图分类号: P208

摘要: 在地理学空间自相关的分析中,权重矩阵对整个分析结果有着较大影响。常见的权重矩阵,例如车矩阵、皇后矩阵、距离权重矩阵和k-邻近矩阵,都有各自的优势和缺点。提出了一种基于长度面积比例的空间权重矩阵(ratio of length and area,RLA),并以近年来危害最大的几种传染病之一——病毒性肝炎在中国大陆各省份的发病率为例进行了实验分析。实验结果表明,RLA矩阵能够很好地实现空间权重矩阵的基本功能,是常见的车矩阵的一种更为广义的定义,并且可以更加自由地实现空间自相关的分析。利用本空间权重矩阵能够更好地模拟不同地理单元之间的邻接关系,为流行病的预防提供支持。

English Abstract

翟卫欣, 程承旗. 一种空间权重矩阵的优化方法[J]. 武汉大学学报 ● 信息科学版, 2017, 42(6): 731-736. doi: 10.13203/j.whugis20150015
引用本文: 翟卫欣, 程承旗. 一种空间权重矩阵的优化方法[J]. 武汉大学学报 ● 信息科学版, 2017, 42(6): 731-736. doi: 10.13203/j.whugis20150015
ZHAI Weixin, CHENG Chengqi. An Improved Spatial Weights Matrix Construction Strategy[J]. Geomatics and Information Science of Wuhan University, 2017, 42(6): 731-736. doi: 10.13203/j.whugis20150015
Citation: ZHAI Weixin, CHENG Chengqi. An Improved Spatial Weights Matrix Construction Strategy[J]. Geomatics and Information Science of Wuhan University, 2017, 42(6): 731-736. doi: 10.13203/j.whugis20150015
  • 空间统计学作为一种处理和分析空间数据的计算方法,已经被广泛地应用到与空间信息操作相关的诸多领域,例如地质、防疫、防灾、土壤、农业、环境、经济、公共卫生等[1-5]。与传染病相关的研究在国内[6-8]和国外[9-12]已成为地理学研究的热点之一。空间统计的方法能有效处理与疾病相关的空间数据,分析不同区域传染性疾病分布和变化的联系,探索传染性疾病病因及各种影响因素[13-14],被广泛应用。由于传染性疾病的发生和流行与空间环境因素密切相关,疫区分布具有明显的地理特征,因此,找出传染性疾病与空间环境因素之间的内在联系,是预测流行趋势并进行有效控制的关键[15]。常用的空间自相关分析的方法均是基于空间权重矩阵的,一个符合真实地理情况的权重矩阵能够更好地帮助实现空间统计,得到事物空间分布的内在规律[16]。空间权重矩阵的判断一般为二值型,即认为两个空间单元相邻或者不相邻。对于具体的空间实体,将其本身的空间属性(例如面积)信息融入空间权重的判断方法可以有效增强对空间单元之间邻近关系判断的适应和表达能力[17-18]

    传统的空间权重矩阵的构造有3类方法:① 按照面域之间是否有邻接关系的邻接法;② 基于面域之间距离的距离权重法;③ k -近邻方法。相应地,空间权重矩阵也分为三类。每一类方法均可以以一个N×N的空间权重矩阵来表示,在该权重矩阵中每一个元素的值ωij为0或者1,0代表第i个和第j个空间单元不邻接,1代表这两个空间单元邻接[19]

    第一种方法的空间权重矩阵第i行第j列的元素值表示为:

    $${{\omega }_{ij}}=\left\{ \begin{array}{*{35}{l}} 1,&{{A}_{i}}与{{A}_{j}}相邻 \\ 0,&其他情况 \\ \end{array} \right.$$ (1)

    式中,AiAj表示两个面域(下同)。这种权重矩阵的邻接性的度量可分为车矩阵和皇后矩阵两种,定义是:如果AiAj有重合的边(对于皇后矩阵,除了边之外,重合的点也考虑),则认为两者相邻接,矩阵中ωij元素和ωji元素的值均为1。

    第二种方法的空间权重矩阵第i行第i列的元素值表示为:

    $${{\omega }_{ij}}=\left\{ \begin{array}{*{35}{l}} 1,&d({{A}_{i}},\text{ }{{A}_{j}})<距离阈值 \\ 0,&其他情况 \\ \end{array} \right.$$ (2)

    式中,d(Ai, Aj)代表AiAj与之间的距离。这种权重矩阵对距离函数的定义和距离阈值的选择有一定的要求,常见的距离函数计算方法是中心距离法,即选取面状单元的空间中心来计算距离。

    第三种方法的空间权重矩阵第i行第j列的元素值表示为:

    $${{\omega }_{ij}}=\left\{ \begin{array}{*{35}{l}} 1,&({{A}_{i}}、{{A}_{j}}属于k-邻近)<距离阈值 \\ 0,&其他情况 \\ \end{array} \right.$$ (3)

    k-邻近方法是数据挖掘中一种常见方法,在空间统计学方面主要是代表选取每一个单元最近的k个单元作为其邻接单元,相应的空间权重矩阵中的元素为1,而其他的相应元素则为0。

    本文提出了一种新的计算空间权重矩阵(ratio of length and area,RLA)的度量方法。这种方法相比传统度量方法能够更精确地刻画不同空间实体之间的邻接关系。基本思想是,选取空间单元的面积作为其自身综合影响力的标度,选取任意两个空间单元的相重合的边长作为其邻接的绝对标度。如果邻接的绝对标度与空间单元自身影响力的标度之比值大于某一阈值,说明邻接单元对该空间单元的影响不容忽视,认为两者相连。这种对于空间相邻区域影响的度量与边长正相关、与面积负相关,能够刻画出相邻的两个空间单元的接壤部分对于各自空间单元的影响。本文以我国近年病毒性肝炎发病情况为例,进行全局和局部的病毒性肝炎疾病空间自相关对比分析。

    本文选取GeoDa作为跨平台开源软件,可以用于空间统计的各个方面[20]。GeoDa软件采用随机模拟方法对Moran’s Ⅰ值进行显著性检验[21]。判断显著性的参数p值大小反映了观测数据为空间随机分布的可能性。一般认为,当p≤0.05时,观测数据为随机分布的可能性不到5%,即区域单元的观测值存在显著的空间自相关性。

    • 本文提出的RLA空间权重矩阵构造方法是一种要求更为严格的有一定区别性的度量方法,其空间权重矩阵元素值表示为:

      $${{\omega }_{ij}}=\left\{ \begin{array}{*{35}{l}} 1,&{{L}_{ij}}/{{S}_{i}}>距离阈值 \\ 0,&其他情况 \\ \end{array} \right.$$ (4)

      式中,Lij分别表示AiAj邻接部分线段的长度;Si表示Ai的面积。相对于传统的权重矩阵,避免了某两个空间单元虽然有一定的重合边,但是这个重合边的长度仅仅是整个空间单元的一小部分而导致两者实际上的联系很小甚至可以忽略的“伪邻接”。有效去除“伪邻接”能够突出重要的空间邻接性质。

    • 全局空间相关性分析从宏观层面出发,通过比较区域汇总的均值与每个对象的值,得出整个研究区域的相关性数值即Moran’s Ⅰ值,用于判断该传染病分布在整个研究区域中有无聚集性。设研究区域中有n个面域单元,第i个单元上的观测值为xi,观测变量在n个单元中的均值记为, x, ωji为空间权重矩阵,则Moran’s Ⅰ定义为[22]

      $$I=\frac{n\sum\limits_{i=1}^{n}{\sum\limits_{j=1}^{n}{{{\omega }_{ij}}({{x}_{i}}-\bar{x})({{x}_{j}}-\bar{x})}}}{\sum\limits_{i=1}^{n}{\sum\limits_{j=1}^{n}{{{\omega }_{ij}}({{x}_{i}}-\bar{x})({{x}_{j}}-\bar{x})}}\sum\limits_{i=1}^{n}{{{({{x}_{i}}-\bar{x})}^{2}}}}$$ (5)

      式中,空间权重ωji和(xix)(xjx)的乘积限定了(xix)(xjx)只对相邻的单元有效。因此, I值的大小取决于ij单元的变量值对于均值的偏离符号。不同的矩阵可定义不同的邻域单元,因而会产生不同的相关性。Moran’s Ⅰ的取值一般在[-1, 1]之间,小于0表示负相关,等于0表示不相关,大于0表示正相关。

    • 局部自相关指标(local indicators of spatial autocorrelation, LISA)从微观出发,对研究区域内每个对象的取值进行分析,得出每个对象在领域空间的分布状态。局部Moran’s Ⅰ值定义为[21]:

      $${{I}_{i}}=\frac{n({{x}_{i}}-\bar{x})\sum\limits_{i=1}^{n}{{{\omega }_{ij}}({{x}_{j}}-\bar{x})}}{\sum\limits_{i=1}^{n}{{{({{x}_{i}}-\bar{x})}^{2}}}}$$ (6)

      式中,n是参与分析的空间单元数;xixj分别表示某现象(或某属性特征)x在空间单元ij上的观测值;ωij是空间权重。

    • 本文以全国1:100万省级行政区划数字地图作为底图,将病毒性肝炎发病数据进行关联。主要数据有:① 2003~2011年全国31个省区病毒性肝炎发病率、死亡率统计数据资料;② 基础地图数据。由于要进行邻近性分析,所以未考虑香港、澳门、台湾、海南区域。

      分析过程中运用了多种不同权重矩阵构造方式,当选择RLA矩阵时,特别注意阈值大小、相邻多边形数量与空间自相关统计量Moran’s Ⅰ值之间的关系。

    • 针对2011年中国大陆大部分省区病毒性肝炎发病率数据,分别使用空间邻接矩阵和RLA矩阵计算全局和局部Moran’s Ⅰ值。

      1) 空间邻接矩阵。实验共选取了一阶车矩阵、二阶车矩阵两种最常见的邻接矩阵来求得相应的Moran’s Ⅰ值和p值。由于中国的行政区划不存在某两个省份只有一个点相重合的情况,因此皇后矩阵与车矩阵是相同的。一阶车矩阵的Moran’s Ⅰ值大于二阶车矩阵的Moran’s Ⅰ值,而且这两种情况下的p值均是小于0.01的,因而这两个结果均表明发病率存在显著的空间自相关性。

      2) RLA矩阵。基于长度面积比的权重矩阵中,阈值t直接决定了对象的邻域范围,不同阈值定义了不同的权重矩阵。

      当1.2×10-3t<1.5×10-3时,Moran’s Ⅰ值快速升高,p值快速降低;当1.5×10-3t<2.0×10-3时,Moran’s Ⅰ值在保持在较高水平的情况下缓慢下降,p值在一直处于较低的水平中,之后两者分别在下降和上升,如图 1所示。由上述分析可知,当1.5×10-3t<2.0×10-3时,所建立的矩阵能较好地反映2011年病毒性肝炎发病率的空间分布自相关情况。

      图  1  RLA的阈值选取

      Figure 1.  Determination of RLA Threshold

      3) RLA矩阵与Moran’s Ⅰ值的关系。不同权重矩阵本质上定义了每个区域的相邻区域的个数,从而决定了Moran’s Ⅰ值的大小。为了揭示空间自相关系数与相邻区域个数的关系,在不同距离下,实验统计与每个区域重心距离小于距离阈值t的区域个数,如图 2所示。根据定义可知阈值t选取越大,对于邻接条件的要求越高,每个单元所对应的相邻区域的个数越小。

      图  2  相邻区域的个数统计图

      Figure 2.  Number of Adjacent Areas

      经过统计,在阈值大于2.0×10-3时,符合条件的邻接总数是44个,权重矩阵所定义的邻域条件内,平均一个区域有约1.5个相邻区域,整体数据没有显著的空间自相关(p=0.198 0)。当选取阈值为2.0×10-3时,整体上又增加了27个相邻接的区域,此时整体数据呈现了显著的空间自相关(p=0.004 0);如果进一步放低对于阈值选取的要求,会增加新的25个空间邻接关系,但是空间自相关特征就不如之前的显著(p=0.089 0)。可以看出,虽然同样是增加了邻接的数量,但并非使结果的显著性向同一方向变化。

      中国大陆的行政区划界限不是按照规则的地理排列方式,且各省区形状不规则,有可能出现某两个不同的行政区划只有较短的边界相重合,邻接关系并不明显。实验数据表明,在运用RLA矩阵时,许多空间上虽然接壤但是实际关联并不强的关联不计入空间权重矩阵。例如,山东和安徽两个省区的界限只有很短的重合长度,这个长度占据各自省界的较小部分,所以尽管两省区有重合边界,但是实际上关联并不大,将这种关联等同于其他的相邻关联(例如山东和河南)显然不合理。

      本文选取常见的车矩阵和本文提出的RLA空间权重矩阵(取t=1.5×10-3)进行对比实验。对于全局Moran’s Ⅰ值,结果显示,用常规的车矩阵计算结果为0.17,用RLA空间权重矩阵的计算结果为0.23,两种计算结果略有不同,均表现出了流行病传播与空间聚集度的正向相关性。

      分析30个区域的局部Moran’s Ⅰ值可以发现,运用两种不同的方法得到的分布和显著程度同样均有所差异。本文提出的RLA空间权重矩阵是一种以邻接关系为基础、要求相对更为严格的矩阵,所以其每个空间单元对应的邻接数量一定小于或等于车矩阵。RLA矩阵保留了更为有意义的邻接关系而去除了相对无效的“伪邻接”,使得权重矩阵能够更加真实地反应空间的邻接关系,而且车矩阵只是RLA空间权重矩阵的一种特例(取t=0)。西部的新疆、西藏、青海、陕西等省区的局部Moran’s Ⅰ值表明其聚集方式发生了显著的变化,而其他地区变化不大。同时,两类图像的各个省区的置信程度(p值)也有所变化。发生这种变化的原因主要在于权重的变化导致原来的I值和新的I值有一定的偏差,相对的“高”和“低”的程度也有了变化,因而会有了“高-高”、“低-低”、“高-低”、“低-高”模式的转化。

      两种方法分析的结果如图 3图 4所示,其中图 3(a)图 4(a)均为车矩阵的结果,图 3(b)图 4(b)均为RLA空间权重矩阵的结果。RLA空间权重矩阵的结果表明我国新疆、西藏、宁夏、陕西省区均是低发病区而被高发病区所围绕,而江苏则是自身发病率不高周围发病率也不高的“低-低”模式。新疆、西藏、宁夏和浙江省区都在p=0.01的条件下置信,陕西是在p=0.05的条件下置信。

      图  3  两种方法的聚类分析图

      Figure 3.  Cluster Map of Two Methods

      图  4  显著性分析图

      Figure 4.  Significant Map of Two Methods

      本文所使用的权重矩阵与常见的权重矩阵的形式无差异,所以进行空间分析的速度相同;但是由于其含义有变化,因而分析结果有不同。对于宁夏,如果用传统的车矩阵进行空间分析,宁夏是属于没有明显聚集特征的单元,但是如果用RLA矩阵,则可以看出宁夏属于“低-低”模式,并且在p=0.01的条件下置信。造成这一差异的主要原因是,在传统的矩阵中,宁夏邻接的陕西、甘肃、内蒙古几个省对宁夏的影响是相同的,而这显然不符合事实,陕西与宁夏接壤的省界长度很短,空间联系实际上不高。在本文的模型中减少了陕西省对宁夏的影响,由此得到陕西的聚集模式是“低-高”模式。对于甘肃省,如果用传统的车矩阵来进行空间分析,邻接省区新疆、青海、四川、陕西、宁夏、内蒙古对其影响相同,新疆、青海、甘肃三省形成了“高-高”聚集模式,但是这种模式事实上并不精确,从空间邻接性的角度来看,甘肃受到新疆的影响相对于其他各个省区的影响较小(排第四),甘肃周围有相对发病率更高的新疆、青海、内蒙古省份,也有更低的四川、陕西、宁夏省区。其中,内蒙古、青海和陕西的影响力更大,新疆与甘肃的邻接性不强,其形成的“高-高”模式并不是稳健的。对于浙江省,两种方法均得到“低-低”的聚集模式,新的矩阵表明置信程度更高,说明浙江与其周围省区的病毒性肝炎发病率均表现偏低。对于江苏等地,RLA矩阵相对于传统的车矩阵同样得到了一定的改进。

    • 权重矩阵不同,对相同数据采用相同的分析方法会得出不同的相关性结论。原因在于权重矩阵不同导致邻域范围不同,同样两个区域在一种矩阵定义下相邻,在另一种矩阵定义下则未必相邻。在不同的邻域范围作用下,可能会产生不同的结果,与全局的Moran’s Ⅰ值和p值没有正向或者负向关系。本文提出的RLA空间权重矩阵实际上是车矩阵的一种广义矩阵,这种矩阵能够恰当地处理好空间自相关分析中的大量无意义的“伪邻接”关系。

      本文以2011年病毒性肝炎的中国大陆各省发病情况为统计数据,进行RLA矩阵的阈值选取,证明在1.5×10-3t<2.0×10-3时,所建立的矩阵能较好地反映2011年病毒性肝炎发病率的空间分布特征。将传统的车矩阵和RLA矩阵进行对比,从运算时间上来看没有差异;从效果上看,RLA矩阵在进行了一些相关性的优化之后,得到了更为符合实际的聚类分析图和显著性分析图。

参考文献 (22)

目录

    /

    返回文章
    返回