-
海洋环境数据是海洋时空分析及其深层知识获取的重要基础,对海洋现象的进一步模拟、预测及决策分析具有重要的科学意义及应用价值[1, 2]。随着“数字海洋”的开展,海洋观测手段日益丰富,尤其以RS、GPS、GIS技术为代表的3S技术的应用,为大面积、多时相、高分辨率的海量海洋环境数据的获取和应用提供了有效的手段[3, 4]。然而,由于获取手段的多样性、处理方式的差异性等,使得海洋环境数据的标准、格式具有很大的异构性[5]。这就使得海洋环境数据集成与共享较难实现。
在海洋领域,借鉴基于Web服务的空间信息集成与共享方法,很多研究者提出了面向服务的海洋环境数据集成与共享方案。如Gillespie R从如何方便海洋、海岸带管理中数据和信息的获取出发,研究并提出了MGDI(marine geospatial data infrastructure)框架体系,用于解决海洋、海岸带管理中各类数据和信息的组织管理问题[6]。但该框架缺乏语义的推理和数据搜索功能,影响了数据资源搜索的查全率与查准率;Wright对如何通过数据访问门户,查询并下载基础设施中共享的海洋、海岸带空间数据进行了研究[7]。但构建的数据访问门户缺乏自动搜索、发现及整合互联网上大量第三方数据资源的能力,数据类型不丰富,用户无法从一个数据访问门户上下载满足研究所需的系列数据;石绥祥研究并探讨了海洋信息共享服务的技术路径,该研究所构建的原型系统采用分布式架构,平时服务器基本可以满足数据服务需求[8]。但数据需求急剧增加时,服务器负担过重,会影响数据获取速度,造成服务器负载不均衡;还有研究者从基于网格的数据共享和信息服务平台体系结构技术、网格环境下的信息发布技术、信息交换、远程多维动态可视化等关键技术出发,利用空间信息网格屏蔽了海流数据的分布性、异构性,实现了海流数据的实时动态可视化共享[9]。但该研究仅以海流数据为例,没有涉及多源数据的集成问题。
综上所述,海洋环境数据集成与共享研究取得了一定进展,各种海洋环境数据共享平台能较好地实现数据资源的汇交集成与共享,但是以上这些模式主要依靠各分平台和数据资源点收集、整理和发布数据资源服务,不能充分集成和挖掘互联网,以及科研工作者自己掌握的海洋环境数据资源。随着大数据时代的到来,现有的数据服务模式已经不能解决密集型科学研究和数据得不到充分共享之间的矛盾。而云计算是一种基于互联网的、大众参与的计算模式,其计算资源是动态、可伸缩、虚拟化的,而且以服务的方式提供,因此,其将大大促进软件之间的资源聚合、信息共享和协同工作,形成面向服务的计算[10-12]。文献[13]研究了以云计算为背景的地理信息资源服务体系,分析设计了具有多个逻辑层的地理信息资源服务体系,囊括了计算、服务、存储、可视化及应用程序。文献[14]提出了一种云计算环境下的数据服务平台,可方便、灵活地集成与共享各种应用。文献 [15]针对云环境中通用分布式文件系统的小文件问题,提出了一种面向用户访问任务的小文件合并与预取策略,此策略有较高的预取命中率,可以有效减少元数据服务器的负载和用户请求响应时延。
本文在前人研究成果的基础上,提出基于云计算的海洋环境数据共享框架。通过提供基础设施即服务(infrastructure as a service,IaaS)、数据资源即服务(data as a service,DaaS)以及数据软件即服务(software as a service,SaaS)实现海洋环境数据共享服务模式的转变。通过提供数据发布、数据需求发布、数据发现与共享、需求发现与反馈等功能,解决数据共享中“用户-数据”之间的矛盾,并激励普通海洋科研工作者贡献自己的数据,保障数据资源有效、可持续整合。
-
针对海洋环境数据的共享需求,为充分整合现有资源,本文从三个层面实现海洋环境数据集成共享框架,主要包括资源层、平台层和应用层,如图 1所示。
1) 资源层
作为整个服务架构的基础,资源层的主要功能是为平台层提供计算、存储和数据服务资源。资源层进一步可划分为物理层和虚拟层。① 物理层主要包括计算服务器、物理存储以及计算模型等资源;② 虚拟层通过虚拟化技术,将不同节点、异构的物理资源进行整合,形成大型资源池供平台层使用。虚拟资源管理是虚拟化技术的重要方面,实现资源部署、资源监控、实时迁移、负载管理、动态优化与备份管理等功能。
2) 平台层
作为衔接资源层和应用层的中间层,平台层包含云服务、云平台和资源注册与监控三个部分。① 云服务主要提供数据服务、数据加载服务、数据查询服务、计算服务和模型服务等;② 云平台包含分布式数据存储结构,将数据分布式存储在各个节点上,数据访问时直接从各节点上读取存储的数据并进行处理,从而避免了大量数据在网络上的传输,实现“计算向存储的迁移”,这对处理海量数据有很大的优势。主从数据库中主数据库(Master)负责写操作的负载,而读的操作则分摊到从数据库(Slave),保证数据的安全性;③ 资源注册与监控,对资源层中的各种资源进行注册,为云平台提供资源索引服务。同时监控所有资源的使用情况,为应用层资源管理提供支持。
3) 应用层
作为整个框架的顶层,应用层通过用户接口为用户提供交互界面,同时通过管理接口为管理员提供管理界面,管理用户的权限以及管理系统中的所有资源。用户可基于多种形式查询满足自己需求的数据资源。如,数据目录导航提供按要素、专题等方式组织的数据资源目录浏览。数据查询则提供支持自动分词和语义匹配的关键词元数据搜索功能,并将搜索结果按照语义关联程度和数据应用特征(例如,数据服务方式、数据受关注程度、数据服务次数等)优化排序呈现给用户。同时,根据用户行为可将数据智能推荐和主动推送给用户。如果找不到所需要的数据资源时可发布自己的数据需求。同时,科研人员还可将自己的数据保存或发布到数据云中,并可将数据标识为私有或公开。为了能够利用“数据云”中已有数据生产出新的数据产品,系统还提供了在线模型调用功能。通过数据与模型,以及计算资源的整合,实现在线数据处理、计算模拟与分析等复杂服务功能。
-
海洋环境数据类型丰富多样,专题包括温、盐、密、浪、潮、流等内容。本文构建的海洋环境数据共享平台,以中尺度涡旋数据和表层漂流浮标数据为例。
表 1 实验数据列表
Table 1. List of Data Experimental
名称 时间范围 格式 空间范围 表层漂流浮标数据 1998.1.1 -2013.12.2 NetCDF 南海海区 中尺度涡旋数据 2006.1.4-2012.4.18 NetCDF 南海海区 -
在物理层,数据存储方式包括两种。① 分布式数据库存储方式:采用备份机制,将数据存放于计算节点或离计算节点较近的节点上,以减少网络传输造成的时间消耗。数据的存取基于传统的ArcSDE数据库操作引擎实现;② 文件式存储方式:将带有空间信息的数据以文本的形式存储于HDFS(hadoop distribute file system),通过创建R-tree实现文件的快速存取操作。为了给应用层提供透明的数据资源,首先基于虚拟层实现数据的虚拟化(服务化),然后在平台层的资源注册与管理中心注册,并提供基于语义的资源查询,实现了按需、透明、快速的数据资源获取。
-
实验环境由五个服务节点(虚拟机)、一个资源注册管理中心构成。各数据服务节点以及海洋环境数据共享平台的宿主节点,需要安装ArcGIS Server 10.1。资源管理注册中心需要配置IIS 6.0,以及SQL Server 2008。实验环境中各服务节点的配置如表 2所示。
表 2 服务节点配置信息列表
Table 2. Configuration Information of Service Nodes
机器名(IP) CPU 内存 软件环境(操作系统、应用软件) 192.168.168 .211 2.00GHz*12*2个 16G CentOS6.4、内核3.1.2、Xen内核4.1.2海洋云计算虚拟化管理系统客户端和服务端 192.168.168.220 2.00GHz*12*2个 32G CentOS6.4、内核3.1.2、Xen内核4.1.2海洋云计算虚拟化管理系统客户端 192.168.168.235 2.00GHz*12*2个 128G CentOS6.4、内核3.1.2、Xen内核4.1.2海洋云计算虚拟化管理系统客户端 192.168.168.221 2.00GHz*12*2个 128G CentOS6.4、内核3.1.2、Xen内核4.1.2海洋云计算虚拟化管理系统客户端 192.168.168.222 2.00GHz*12*2个 32G CentOS6.4、内核3.1.2、Xen内核4.1.2海洋云计算虚拟化管理系统客户端 -
本文以南海海区为试验区,以表层漂流浮标数据和中尺度涡旋数据为试验数据,构建了原型系统。首先将物理层的表层漂流浮标数据、中尺度涡旋数据虚拟化,然后,针对这两类数据,在平台层以GP(geoprocessing) Service的形式封装相应的在线处理模块,并注册到资源管理中心,最后,在应用层通过查询和集成计算和数据资源的方式为用户提供在线服务。
图 2是中尺度涡旋数据云服务的应用实例,利用GP Service、Date Service实现数据的可视化、时空查询、涡度(描述速度场的旋度)及动能等信息统计分析、涡旋生成过程的动态可视化等。
图 3是表层漂流数据云服务的应用实例,本模块根据GP服务的可用状态和数据的可用状态智能组合,形成可利用服务资源,然后根据用户选择区域的数据量和任务量,利用资源管理器,动态增加和删除可用服务。利用并行计算,解决了传统计算方式资源利用率低和计算效率低的问题,实现了基于云平台的弹性计算。
图 3 基于表层漂流浮标数据的海表面度插值服务模块
Figure 3. Cloud Service Module of Interpolation Based on Drifting Profiling Floats Data
图 4、图 5是基于云平台的数据在线上传、下载服务,通过用户感兴趣区域和数据的选择,提供各种类型数据的上传和下载服务,在数据上传的过程中,通过资源注册管理中心获取元数据信息,资源注册管理中心将数据分块,以充分利用物理资源为原则,完成数据的自动、透明化存储。在数据的下载阶段,将用户请求提交至资源注册管理中心,通过注册信息,从物理层提取数据,在保证数据安全性的前提下实现数据的按需服务。
-
本文提出基于云计算的海洋环境数据共享架构,旨在实现云计算环境下海洋环境数据的“一体化”管理,构建一个庞大的虚拟环境,实现各种海洋环境数据的高效集成与共享,以较好地解决数据共享中存在的数据服务负载不均衡、数据整合模式单一、数据服务效果不好等问题。通过虚拟化技术创建拥有海量数据存储设备的数据中心,为普通科研用户提供基础设施即服务(IaaS)。在数据共享的基础上,更加关注数据的在线分析处理能力,在提供数据资源共享的同时,还为用户提供在线数据处理、分析、可视化的实用性工具和模型计算。构建的海洋环境数据共享平台,为海洋用户充分利用各种海洋信息,提高海洋工作的效率,减少重复性投资,充分合理利用现有设备和资源提供了借鉴。
Design and Application on the Cloud Computing Based Method of Marine Environment Data Sharing
-
摘要: 传统的海洋环境数据集成与共享存在共享模式单一、数据服务效果不明显等突出问题。随着云计算等技术的出现,数据共享模式发生了巨大的变化。提出基于云计算的海洋环境数据共享体系,通过基础设施即服务(infrastructure as a service,IaaS)、数据资源即服务(data as a service,DaaS)及软件即服务(software as a service,SaaS)实现海洋环境数据共享模式的转变。在海洋环境数据云中,用户既是数据的使用者也是数据的提供者,通过数据发布与发现、数据需求发布与发现等功能,解决数据共享中“用户-数据”之间的矛盾,并激励普通海洋科研工作者贡献自己的数据,保障数据资源有效、可持续利用。以南海海域为实验区,以表层漂流浮标数据及中尺度涡旋数据为实验数据,构建了原型系统验证该方法。Abstract: The integration and sharing of marine environment data is one of the important research goals in marine GIS. Several problems have blocked the effective sharing of marine environmental data in the past, such as load unbalance in data services, limited data sharing modes and unobvious data servers. With the advent of cloud computing technologies, great changes occurred in the modes for data sharing. Cloud computing relies on sharing of resources to achieve coherence and economies of scale; similar to a utility (like the electricity grid) over a network. The theoretical foundation of cloud computing therefore is the broader concept of converged infrastructure and shared services. This paper presents a data sharing architecture for the marine environment based on cloud computing. The architecture providers of aIaaS(Infrastructure as a Service) offer computers-either physical or more often virtual machines and other resources. The DaaS(Data as a Service) mode in the architecture is based on the concept that a product, data in this case, can be provided on demand to the user regardless of the geographic or organizational separation of provider and consumer. The PaaS(Platform as a Service) mode in the architecture providers deliver a computing platform, typically including operating system, programming language execution environment, database, and web server. Application developers can develop and run their software solutions on a cloud platform without the cost and complexity of buying and managing the underlying hardware and software layers. Through this architecture, the user acts as both user and provider. The architecture provides some core functions for user, such as data release, data needs release, data discovery, needs discovery and feedback functions. This marine environment data sharing mode can inspire marine researchers to contribute their data thus ensuring effective and sustainable data resource integration. A prototype system for marine environment information cloud computing platform was realized, and simultaneously the feasibility and practicality of our technical solution was tested.
-
Key words:
- marine environment data /
- data sharing /
- data services /
- cloud computing
-
表 1 实验数据列表
Table 1. List of Data Experimental
名称 时间范围 格式 空间范围 表层漂流浮标数据 1998.1.1 -2013.12.2 NetCDF 南海海区 中尺度涡旋数据 2006.1.4-2012.4.18 NetCDF 南海海区 表 2 服务节点配置信息列表
Table 2. Configuration Information of Service Nodes
机器名(IP) CPU 内存 软件环境(操作系统、应用软件) 192.168.168 .211 2.00GHz*12*2个 16G CentOS6.4、内核3.1.2、Xen内核4.1.2海洋云计算虚拟化管理系统客户端和服务端 192.168.168.220 2.00GHz*12*2个 32G CentOS6.4、内核3.1.2、Xen内核4.1.2海洋云计算虚拟化管理系统客户端 192.168.168.235 2.00GHz*12*2个 128G CentOS6.4、内核3.1.2、Xen内核4.1.2海洋云计算虚拟化管理系统客户端 192.168.168.221 2.00GHz*12*2个 128G CentOS6.4、内核3.1.2、Xen内核4.1.2海洋云计算虚拟化管理系统客户端 192.168.168.222 2.00GHz*12*2个 32G CentOS6.4、内核3.1.2、Xen内核4.1.2海洋云计算虚拟化管理系统客户端 -
[1] 苏奋振, 周成虎, 杨晓梅, 等. 海洋地理信息系统理论基础及其关键技术研究[J]. 海洋学报, 2004, 26(6):22-28 http://www.cnki.com.cn/Article/CJFDTOTAL-SEAC200406003.htm Su Fenzhen, Zhou Chenghu, Yang Xiaomei, et al. Definition and Structure of Marine Geographic Information System[J]. Acta Oceanologica Sinica, 2004, 26(6):22-28 http://www.cnki.com.cn/Article/CJFDTOTAL-SEAC200406003.htm [2] He Yawen, Su Fenzhen, Du Yunyan, et al. Web-based Spatiotemporal Visualization of Marine Environment Data[J]. Chinese Journal of Oceanology and Limnology, 2010, 28(5):1086-1094. doi: 10.1007/s00343-010-0029-8 [3] 苏奋振, 周成虎, 杨晓梅. 海洋地理信息系统——原理, 技术与应用[M]. 北京:海洋出版社, 2005 Su Fenzhen, Zhou Chenghu, Yang Xiaomei. The Theory, Technology and Application of Marine Geographic Information System[M]. Beijing:China Ocean Press, 2005 [4] 何亚文. 海洋GIS模型服务聚合应用研究[D]. 烟台:中国科学院烟台海岸带研究所, 2012 He Yawen. Research of the Composition Techniques of Marine GIS Model Services[D]. Yantai:Yantai Institute of Coastal Zone Research Chinese Academy of Sciences, 2012 [5] Schaap D M, Lowry R K. SeaDataNet-Pan-European infrastructure for marine and ocean data management:unified access to distributed datasets[J]. International Journal of Digital Earth, 2010, 3(S1):50-69 http://previous.seadatanet.org/content/download/8302/56207/version/1/file/sdn-iode50-march2011.pdf [6] Gillespie R, Butler M, Anderson N, Kucera H, LeBlanc C. MGDI:An Information Infrastructure to Support Integrated Coastal Management in Canada[J]. GeoCoast, 2000, 1(1):15-24. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.123.5116&rep=rep1&type=pdf [7] Wright D J. Spatial Data Infrastructures for Coastal Environments[M]//Remote Sensing and Geospatial Technologies for Coastal Ecosystem Assessment and Management. Berlin:Springer-Verlag, 2009 [8] 石绥祥. 基于网格的海洋环境数据共享与信息服务技术的研究[J]. 中国科技成果, 2013, 16(21):35-36 Shi Suixiang. Technology Study of Ocean Evironment Information Visualization Based on Grid Service[J]. China Science and Technology Achievements, 2013, 16(21):35-36 [9] 何亚文,杜云艳,苏奋振,等. 利用空间信息网格的海流场远程可视化[J]. 武汉大学学报·信息科学版,2010,35(3):350-352 http://ch.whu.edu.cn/CN/abstract/abstract871.shtml He Yawen, Du Yunyan, Su Fenzhen, et al. Remote Visualizations of Sea Flow Field with Spatial Information Grids[J]. Geomatics and Information Science of Wuhan University, 2010,35(3):350-352 http://ch.whu.edu.cn/CN/abstract/abstract871.shtml [10] 李德仁, 姚远, 邵振峰. 智慧城市中的大数据[J]. 武汉大学学报·信息科学版,2014, 39(6):631-6400 http://ch.whu.edu.cn/CN/abstract/abstract2999.shtml Li Deren, Yao Yuan, Shao Zhenfeng et al. Big Data in Smart City[J]. Geomatics and Information Science of Wuhan University, 2014, 39(6):631-640 http://ch.whu.edu.cn/CN/abstract/abstract2999.shtml [11] Jadeja Y, Modi K. Cloud Computing-Concepts, Architecture and Challenges[C]. The 2012 International Conference on Computing, Electronics and Electrical Technologies, Nagercoil, Tamil Nadu, India, 2012 [12] 罗军舟, 金嘉晖, 宋爱波, 等. 云计算:体系架构与关键技术[J]. 通信学报,2011,32(7):3-21 http://www.cnki.com.cn/Article/CJFDTOTAL-TXXB201107003.htm Luo Junzhou, Jin Jiahui, Song Aibo, et al. Cloud Computing:Architecture and Key Technologies[J]. Journal on Communications, 2011,32(7):3-21 http://www.cnki.com.cn/Article/CJFDTOTAL-TXXB201107003.htm [13] 王笑宇, 程良伦. 云计算下的多源信息资源云体系及云服务模型研究[J]. 计算机应用研究, 2014,31(3):784-788 http://www.cnki.com.cn/Article/CJFDTOTAL-JSYJ201403036.htm Wang Xiaoyu, Cheng Lianglun, Study of Multi-source Information Resources Cloud Systems and Cloud Services Model on Cloud Computing[J]. Application Research of Computers, 2014,31(3):784-788 http://www.cnki.com.cn/Article/CJFDTOTAL-JSYJ201403036.htm [14] Jeaha Y, Anand R, Hobson S, et al. Data Service Portal for application integration in cloud computing[C]. The 8th International Conference & Expo on Emerging Technologies for a Smarter World, Long Island, New York, 2011 [15] 王涛, 姚世红, 徐正全, 等. 云存储中面向访问任务的小文件合并与预取策略[J]. 武汉大学学报·信息科学版, 2013,38(12):1504-1508 http://ch.whu.edu.cn/CN/abstract/abstract2840.shtml Wang Tao, Yao Shihong, Xu Zhengquan, et al. A Small File Merging and Prefetching Strategy Based on Access Task in Cloud Storage[J]. Geomatics and Information Science of Wuhan University, 2013,38(12):1504-1508 http://ch.whu.edu.cn/CN/abstract/abstract2840.shtml -