留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于剖分网格的多源资源环境数据统一检索方法

吴飞龙 程承旗 陈波 褚福林

吴飞龙, 程承旗, 陈波, 褚福林. 基于剖分网格的多源资源环境数据统一检索方法[J]. 武汉大学学报 ● 信息科学版, 2017, 42(7): 943-949. doi: 10.13203/j.whugis20150241
引用本文: 吴飞龙, 程承旗, 陈波, 褚福林. 基于剖分网格的多源资源环境数据统一检索方法[J]. 武汉大学学报 ● 信息科学版, 2017, 42(7): 943-949. doi: 10.13203/j.whugis20150241
WU Feilong, CHENG Chengqi, CHEN Bo, CHU Fulin. A Method of Multi-source Resource Environmental Data Integrated Retrieval Based on Subdivision Grid[J]. Geomatics and Information Science of Wuhan University, 2017, 42(7): 943-949. doi: 10.13203/j.whugis20150241
Citation: WU Feilong, CHENG Chengqi, CHEN Bo, CHU Fulin. A Method of Multi-source Resource Environmental Data Integrated Retrieval Based on Subdivision Grid[J]. Geomatics and Information Science of Wuhan University, 2017, 42(7): 943-949. doi: 10.13203/j.whugis20150241

基于剖分网格的多源资源环境数据统一检索方法

doi: 10.13203/j.whugis20150241
基金项目: 

国家重点基础研究发展计划 61399

国家高分重大专项 30-Y30B13-9003-14/16

国家高分重大专项 03-Y30B06-9001-13/15

详细信息
    作者简介:

    吴飞龙, 博士, 主要从事地理空间网格计算方法研究。feilong270@qq.com

    通讯作者: 程承旗, 博士, 教授。ccq@pku.edu.cn
  • 中图分类号: P231.5

A Method of Multi-source Resource Environmental Data Integrated Retrieval Based on Subdivision Grid

Funds: 

The National Key Basic Research and Development Program 61399

the National Science and Technology Major Project of HEOS 30-Y30B13-9003-14/16

the National Science and Technology Major Project of HEOS 03-Y30B06-9001-13/15

More Information
    Author Bio:

    WU Feilong, PhD candidate, specializes in geospatial grid computing. E-mail:feilong270@qq.com

    Corresponding author: CHENG Chengqi, PhD, professor. E-mail: ccq@pku.edu.cn
图(5) / 表(3)
计量
  • 文章访问数:  465
  • HTML全文浏览量:  9
  • PDF下载量:  431
  • 被引次数: 0
出版历程
  • 收稿日期:  2015-09-24
  • 刊出日期:  2017-07-05

基于剖分网格的多源资源环境数据统一检索方法

doi: 10.13203/j.whugis20150241
    基金项目:

    国家重点基础研究发展计划 61399

    国家高分重大专项 30-Y30B13-9003-14/16

    国家高分重大专项 03-Y30B06-9001-13/15

    作者简介:

    吴飞龙, 博士, 主要从事地理空间网格计算方法研究。feilong270@qq.com

    通讯作者: 程承旗, 博士, 教授。ccq@pku.edu.cn
  • 中图分类号: P231.5

摘要: 在应急事件保障中,多源资源环境数据相对孤立、关联性差,难以实现统一检索。从业务应用实际问题出发,基于地球剖分网格思想,将多源资源环境数据纳入到统一的网格参考基础下,多部门多源资源环境数据以网格编码为基础实现在逻辑上的统一组织,从而形成统一关联查询能力。以形状特征点、线、面为区分对资源环境数据进行网格编码后,将其纳入到编码索引表中,通过相关编码计算方法实现了数据的统一检索。实验表明,上述方法实现了多源资源环境数据的统一检索,提升效率10倍左右。

English Abstract

吴飞龙, 程承旗, 陈波, 褚福林. 基于剖分网格的多源资源环境数据统一检索方法[J]. 武汉大学学报 ● 信息科学版, 2017, 42(7): 943-949. doi: 10.13203/j.whugis20150241
引用本文: 吴飞龙, 程承旗, 陈波, 褚福林. 基于剖分网格的多源资源环境数据统一检索方法[J]. 武汉大学学报 ● 信息科学版, 2017, 42(7): 943-949. doi: 10.13203/j.whugis20150241
WU Feilong, CHENG Chengqi, CHEN Bo, CHU Fulin. A Method of Multi-source Resource Environmental Data Integrated Retrieval Based on Subdivision Grid[J]. Geomatics and Information Science of Wuhan University, 2017, 42(7): 943-949. doi: 10.13203/j.whugis20150241
Citation: WU Feilong, CHENG Chengqi, CHEN Bo, CHU Fulin. A Method of Multi-source Resource Environmental Data Integrated Retrieval Based on Subdivision Grid[J]. Geomatics and Information Science of Wuhan University, 2017, 42(7): 943-949. doi: 10.13203/j.whugis20150241
  • 资源环境数据来源于多个业务部门,各部门根据行业特点设计适合自身的数据组织方法。在行业内不存在难以统一检索的问题,而跨行业应用则带来难题。以减灾领域的资源环境数据应急保障为例,涉及的数据包括多源多尺度遥感影像数据、基础地理信息数据、社会经济数据等,这些数据来源于民政、测绘、环境、国土、水利、交通等多个部门[1]。现有系统中,采用地理空间数据引擎、关系数据库等进行组织管理,不同类型数据之间相对孤立、关联性差,较难实现统一检索,极大地影响了保障效率。从数据组织方法来看,基础地理信息、数字高程模型等测绘产品习惯于按地图分幅组织,中低分辨率光学影像习惯于按小尺度轨道分景组织,高分辨率光学影像习惯于按大尺度轨道分景组织,气象观测数据则按气象站点组织,全国土壤数据、全国导航地图和社会经济统计数据按行政区划或其他方法组织,多样的数据组织方式使得多源资源环境数据的统一检索不易实现。

    面向多源地理空间数据的集成方法一直是研究的热门[2],大致可分为以下3类:① 从OGC空间数据共享互操作规范出发,提出采用可扩展标记语言GML[3],将SFS扩展成统一访问模型[4],以CSW为基础形成SESDI (semantically-enabled spatial data infrastructures)进行空间多维查询[5]等方法,多从元数据或交换格式上进行统一。② 从空间划分及编码出发,多采用剖分网格的方法对地球空间进行剖分和编码,提出地理空间数据组织的新思路,但这些研究多关注地球剖分及编码方法[6-16];基于Morton码[17]和15 km六边形离散全球网格[18]分别从管理土地数据和SMOS(Radiometric observations from the soil moisture and ocean salinity)数据,针对特定区域及数据进行了探索。③ 从非空间特征角度出发,构建特征要素图,建立类似图的关联模型[19]

    • 资源环境数据应急保障一般具备事件区域特征、事件突发特征与多部门的数据来源等3个特点。空间特征是资源环境数据的共同特征,可作为查询条件;时间效率是重要的考核指标;实现多部门多源资源环境数据的统一检索是亟需解决的问题。

      本文提出采用全球剖分网格作为多部门多源资源环境数据的组织索引框架和统一参考基础。拟采用的剖分网格为北京大学程承旗教授团队提出的GeoSOT全球剖分网格,全称为基于2n一维整型数组地理坐标的全球剖分网格(Geographical coordinate global Subdivision based on One-dimension-integer and Two to n-th power, GeoSOT)[20-21]。其特点是实现整度、整分、整秒的四叉树剖分,并形成每位皆具空间意义的二进制编码。整个地球表面上被多层由形状近似的剖分网格所覆盖,不同层次的剖分网格大小呈递归变化关系,形成可根据需要灵活管理、组合、拆分的空间信息剖分组织体系。其核心思路如图 1所示,通过三次地球扩展(将地球扩展为512°×512°、将1°扩展为64′、将1′扩展为64″),实现整度、整分的四叉树剖分,形成一个上至地球(0级)、下至cm级网格(32级)的多尺度四叉树网格。

      图  1  GeoSOT网格虚拟扩展及编码方法图[20]

      Figure 1.  Virtual Expansion and Coding Method of GeoSOT Grid[20]

      来自不同部门的多源资源环境数据,在其原有分幅、分景、分区划体制不变的前提下,根据空间范围建立与网格单元的对应关系,实现多部门多源资源环境数据在逻辑上的统一组织。如图 2所示,资源环境数据根据对应的剖分网格,被赋予网格编码,无论组织方法如何,不同数据之间通过网格编码与地球上的空间网格建立关联;当进行数据检索时,检索范围转换为空间网格,而数据已经被关联在网格上,由此实现“数据-网格-数据”的关联检索方法,从而形成统一的空间查询能力。

      图  2  网格关联检索方法思路图

      Figure 2.  Solution of Retrieval Method Base on Grid

    • 资源环境数据的网格编码方法,不改变原有的数据组织方法,只需将数据对象的区域特征转换为网格编码即可。利用数据都具有的区域特征,将其区域范围采用一个或多个剖分网格单元进行表达,这一个或多个剖分网格单元的编码便是数据的网格编码。

      地形特征要素通常被抽象成点、线、面三种形式,并采用最小外包矩形(minimum bounding rectangle, MBR)作为索引。在网格编码方法中,点要素采用一个剖分网格单元进行表达,线和面要素根据其MBR区域特征采用一个或多个剖分网格单元进行表达。具有区域特征的资源环境数据(矢量、栅格、格点数据等)都可作为面要素进行处理。每个编码采用一个64 Bit长整形整数进行存储,最小网格可到32级。采用哪个层级的剖分网格单元对要素的区域特征进行拟合,可根据应用需求而定。从网格数量和冗余区域两方面进行分析,将一个要素拟合到4个网格中较为合理。本文为简化处理,拟定以下原则。

      1) 采用的网格最小至32级;

      2) 点要素全部采用第23级网格(8 m)进行拟合;

      3) 线和面要素的MBR区域至多采用4个剖分网格单元进行拟合。

      对于点要素的网格编码方法不再详述,其编码是点对应的第23级网格的网格编码,一个点要素增加1条编码记录。对于面要素,可根据MBR大小按照上述原则求取网格层级,即该MBR大小向上寻找的标准GeoSOT网格层级;计算该MBR覆盖在该网格层级的1个、2个或4个剖分网格,获得此编码集合,一个线或面要素增加1条、2条或4条编码记录,如图 3所示。具体编码步骤如下。

      图  3  线和面要素编码方法图

      Figure 3.  Coding Method of Line and Polygon Feature

      1) 读取要素的MBR,或根据要素的区域特征计算其MBR,获得其左上、右下角点经纬度(ulx, uly, lrx, lry);

      2) 求取MBR中的长边(以经纬度为计量对象),long=max(ulx-lrx, lry-uly), max为取最大值函数;

      3) 确定网格层级,level=32-[log2long],[]为取整运算;

      4) 求取MBR 4个角点在层级level的网格编码,对结果取并集,获得网格编码集。

      线要素的编码方法与面要素一致。对长度较长的线,如图 3中的线,以虚线网格为标准网格,则该线可采用穿越的5个网格来进行编码。这样不改变线的原始形状,只是对应编码数目增加。

    • 由于网格编码中已附带空间索引特性,网格编码检索方法可通过网格编码的简单匹配来搜索数据。输入的查询区域范围转换为一个或多个编码,而数据已预处理生成编码,数据的查询过程转换为匹配输入网格的编码及其子编码的过程。

      实现数据的统一检索,关键在于编码索引表的设计。点、线、面等要素进行编码后,转化为编码索引表中的1~4条记录,采用相同的存储方式。由于空间形态各异的数据都以网格编码的形式记录其空间特征,数据库中对于空间特征的记录,不再以点、外包矩形、多边形等多种形态存在,都以网格编码的形式记录。统一的空间特征记录方式,构成了统一检索的前提条件。编码索引表中存储用于统一检索的关键字段,字段设计如表 1

      表 1  编码索引表字段设计

      Table 1.  Field Design of Code Index Table

      序号字段名类型含义
      1FIDINTEGERID
      2CODENATURAL网格编码
      3LEVELINTEGER网格编码
      4DATABASEVARCHAR2来源数据库表名
      5DATAFIDINTEGER来源数据库的ID
      6DATATIMEDATE数据生产时间

      资源环境数据按照上节所述网格编码方法生成1~4个网格编码,在编码索引表中产生1~4条记录。每条记录包括网格编码,以及该网格编码对应的数据来源,可通过编码反向到原数据库中找到数据。数据生成网格编码,将网格编码放入编码索引表中统一管理,编码索引表中根据网格编码的大小自动对数据条目进行排序。

      将所有的编码放入到一个编码索引表中,随着数据量的增长,编码索引表的数据量也在不断增长,将影响查询的效率。设置编码索引表的最大容量,本文以100 000条为最大容量,当编码索引表达到最大容量时,进行编码索引表的分裂,形成编码索引子表,如此反复。随着编码索引子表的增多,需要采用一个描述子表索引的全局索引表,负责维护系统中所有编码索引子表的索引。子表分裂方法并非简单地一分为二,依然利用网格的四叉树特性进行分裂,步骤如下。

      1) 求取编码索引表中的最大值和最小值,获得它们的父编码,或者读取全局索引表中记录的该编码索引表的父编码;

      2) 根据父编码求取4个子编码,并获得4个子编码数值区间,生成四张编码索引子表,并将相关信息记录至全局索引表中;

      3) 将编码索引子表中顺序排列的记录根据子编码数值区间,分别转移至4张编码索引子表中。

    • 输入的查询区域范围转换为网格编码后,网格编码在数据库中采用四叉树索引。检索操作,只需在编码索引表中搜寻输入网格的父网格、子网格及孙子网格编码即可。父网格编码只需进行编码右移位运算,而子网格及孙子网格编码在按数值顺序排列的编码索引表中相邻,直接截断提取即可。编码检索方法的关键在于采用包含多层级特征的一维二进制编码计算,而非复杂空间关系判断或二维浮点数经纬度计算,因而检索效率较高, 如图 4所示。其算法流程如下。

      图  4  网格编码检索方法图

      Figure 4.  Retrieval Method with Grid Code

      1) 输入的查询区域(点、矩形、不规则多边形等)转换为5~16个左右网格(点为1个),形成初始输入网格编码集{COri};

      2) 简化输入网格编码集,对输入网格编码集{COri}进行聚合处理,具有共同父网格的4个网格聚合为父网格,不足4个的停止聚合,形成修正输入网格编码集{CCor};

      3) 针对修正输入网格编码集{CCor}中的网格编码C0,其所在网格层级为level,计算C0在同级网格中的下一个兄弟网格编码CBro,即CBro=C0+2(32-level)×2

      4) 在已顺序排列的编码索引表中,将满足条件C0≤CODE<CBro的所有子网格及孙子网格编码条目取出;

      5) 采用二进制右移运算,求取C0的父网格编码集合{Cfat},对集合中每个编码在编码索引表中进行数值匹配,将满足条件的父网格编码条目取出;

      6) 对取出的数据条目,根据其对应数据表及ID找到对应数据;

      7) 对修正输入网格编码集{CCor}中的每个网格编码完成步骤3)、步骤4),并对查找结果进行去重处理。

    • 本文已开发形成基于剖分网格的资源环境数据关联检索原型系统,如图 5。该系统采用VS2008和C#语言开发,数据库采用Oracle 11g。试验分为以下两个部分:① 功能测试,测试实现多部门资源环境数据的统一检索的可行性;② 性能测试,测试基于剖分网格的查询方法性能。

      图  5  原型系统界面

      Figure 5.  Interface of Prototype System

    • 系统接入了来源于测绘、气象、遥感数据管理部门等多个部门的数字线划图、数字高程模型、数字正射影像、气象观测站观测数据、全国降雨分布数据、多个卫星影像数据(按卫星不同分库存储)等共8个数据库(表)。试验证明,采用上述方法,可以通过单次查询操作,实现上述8个数据库(表)中数据的统一检索。

    • 该系统已在某卫星应用部门进行试用,并进行数据级为3 000万的真实数据试验。硬件配置为Intel Xeon E5-2609 2.4 GHz/16 GB,数据库都采用Oracle 11g。3 000万条数据为5 a内4颗对地观测卫星获取的2级遥感影像产品,以景为单元存储,其元数据按卫星型号分4个库进行存储。该部门采用ArcSDE对元数据进行管理,ArcSDE同样采用四叉树索引,并将要素拟合到局部自适应网格中。

      相比于ArcSDE检索方法,ArcSDE建立的是局部自适应格网,本文方法采用自己的编码体系,检索中仍会采用经纬度;本文的编码体系建立在全球剖分网格体系下,由经纬度直接转换后,完全依托二进制编码计算进行检索。GeoSOT一维二进制网格编码计算与ArcSDE二维网格编码和经纬度混合计算对比条件下,针对同样的数据,进行了检索性能对比试验。

      输入查询区域范围转换得到的网格数量决定了查询效率,网格数量越少,效率越高。为减少变量,考虑到资源环境数据应急保障应用需求,以12级8′网格(约16 km)作为标准网格,即输入查询区域拟合为一个或多个8′网格。输入查询区域按点和不规则多边形两种输入方法,进行以下两个试验。

      1) 以点作为输入条件,查询两年内几大城市的遥感影像数据,试验结果如表 2

      表 2  点查询试验结果统计表

      Table 2.  Result Table of Point Query

      序号点名称时间
      跨度/a
      传统查
      询数量
      编码查
      询数量
      传统查询
      时间/s
      编码查询
      时间/s
      查全率/%冗余率/%提升效率
      1北京21031692011.3110064153.4
      2东京24655622371.8510020128.1
      3平壤21021153751.1710013320.5
      4首尔2911053940.7710015511.7
      5莫斯科211164030.17100452 370.6
      6华盛顿240523730.591003632.2

      2) 以不规则多边形作为输入条件,查询一年内几大地区的遥感影像数据,试验结果如表 3

      编码预处理方面,对3 000万条记录进行编码,耗时10 440 s,编码索引表增加约11 160万条记录,占用存储空间27 540 MB,增加比例约为3.72,即1条数据平均采用3.72个网格进行拟合。对查询结果的真实性验证发现,网格编码查询方法获得的数据条目通常多于传统查询方法获得的数据条目,但网格编码查询方法获得的数据条目囊括了所有传统查询方法获得的数据条目,因此,查全率为100%。

      表 3  区域查询试验结果统计表

      Table 3.  Result Table of Area Query

      序号区域名称时间
      跨度/a
      传统查
      询数量
      编码查
      询数量
      传统查询
      时间/s
      编码查询
      时间/s
      查全率/%冗余率/%提升效率
      1英格兰11 8301 85221610.25100121.1
      2意大利14 0004 81422532.12100207.0
      3华盛顿11 5231 91420424.87100258.2
      4休斯顿13 0923 38817812.3100914.5
      5台湾14555441291.371001994.1
      6南海13 0003 01320410.15100420.1

      通过以上两个试验可以得知,点查询效率提升100倍以上,不规则区域查询效率提升10倍左右;查全率为100%,冗余率大约在25%左右。点查询效率提升较大,主要原因是点查询为单网格查询,只在编码索引表中进行了一次操作,充分发挥了网格编码查询的效能。针对更大区域的查询,由于区域拟合的网格数量更多,提升的效率有所降低。

    • 针对数据查询结果冗余率较高的问题,本文中数据编码采用比较粗糙的1~4个网格进行标识,一定程度上增加了冗余几率。下一步研究中,可从应用需求出发,采用多网格层级多网格对数据区域范围进行拟合,可能会降低检索效率,但将提高准确率,达到效率提升和冗余率高的平衡。本文方法可作为粗检索步骤,配合传统方法的精确检索,亦可较大程度提高数据检索效率并提升保障效率,为多部门多源资源环境数据快速应急保障提供了新的思路。

参考文献 (21)

目录

    /

    返回文章
    返回