-
陆地观测卫星数据中心是承担我国陆地观测卫星数据处理、存储、分发及服务的国家重要基础设施,是实现我国陆地观测卫星资源集成、共享开发与信息服务的核心平台。1999年,中国资源卫星应用中心(China Centre for Resources Satellite Data and Application,CRESDA)建成我国第一颗传输型陆地观测卫星,即中巴地球资源卫星(China-Brazil Earth resources satellite 1,CBERS-1)地面系统,从此我国拥有了自主的陆地观测卫星地面系统及遥感数据,至今已运行16颗陆地观测卫星,在轨13颗。
经过多年的发展,陆地观测卫星数据中心在数据处理水平、数据存储规模及数据分发服务等方面取得了显著成效,但由于我国陆地观测卫星数据中心建设及遥感应用起步较晚,与国际上先进的陆地观测卫星数据中心发展水平相比,尚存一定差距。
当前,我国陆地观测卫星数据中心采用集中存储管理、集中处理的技术体系架构,难以适应陆地观测卫星大数据的组织需求。在综合利用多时空尺度、多源、多维、大量和多态数据进行大数据处理与分析的过程中,特别是图像和数据流等半结构化、非结构化数据处理与分析方面,还存在结构、技术等方面的发展限制。因此,本文结合大数据技术,提出了一种基于Hadoop平台支持大数据处理与分析的陆地观测卫星数据中心架构解决方案,以期能更好地为政府部门、行业和区域等广大用户提供高质量和高效率的数据信息服务。
-
大数据技术是指对数据规模大、结构复杂度高、关联度强的数据集进行处理与应用的信息技术。大数据主要通过“3V”表述特征[1],即规模性、多样性和高速性。
国内外对大数据技术进行了比较全面的投入和研究。美国《自然》杂志早在2008年就推出了大数据专刊[2]。美国《科学》杂志在2011年推出数据处理专刊[3],说明大数据对于科学研究的重要性。2012年3月美国奥巴马政府发布了“大数据研究和发展倡议”[4],正式启动“大数据发展计划”,计划在科学研究、环境、生物医学等领域利用大数据技术进行突破。2012年5月,联合国发表名为《大数据促发展:挑战与机遇》的政务白皮书。国内外相关学者及机构对大数据架构、云计算、并行数据库、MapReduce及数据安全性等技术进行研究并取得丰硕成果[5-20],推动了大数据技术进步及产业变革。
-
国际上著名的遥感机构在大数据时代拓展了各自遥感卫星数据中心的布局,本文以美国国家航空航天局(National Aeronautics and Space Administration,NASA)和欧洲航天局(European Space Agency,ESA)为例进行说明。
NASA使用地球观测系统数据和信息系统(Earth observing system data and information system,EOSDIS)来存储与管理全部地球观测系统数据。EOSDIS采用基于大数据的分布式、开放的系统架构,按照地球科学的学科依次划分各个分布式数据存档中心(distributed active archive center, DAAC),每个DAAC负责管理一个特定学科领域地球观测系统数据的处理、存储、管理与分发。
ESA数据中心在总体架构上采用基于大数据的分布式计算和基于任务的分布式存储,建立统一的数据存储格式,通过统筹规划,建立地面高速网络连接各个分布式资源,实现各类遥感卫星数据在欧盟国家的充分共享和遥感地面设施的资源统筹。
-
为满足多星地面处理系统功能和性能的要求,根据计算机、存储、网络和信息技术的发展,当前我国陆地观测卫星数据中心采用集中存储管理、集中处理的体系架构,可分为数据获取层、数据存储层、数据处理与分析层及数据应用层,系统架构如图 1所示。
数据获取层获取遥感卫星数据、定标数据、基础地理信息数据及其他数据等,是整个系统的数据输入环节。
数据存储层集中存储管理数据获取层获取的各类数据,采用在线存储、近线存储和离线存储的三级存储策略满足不同时效性数据的存储需求。
数据处理及分析层利用高性能计算集群负责数据处理,通过原始数据解压缩、辐射校正、传感器校正及系统几何校正等步骤生成标准产品,根据用户需求对数据进行分析处理,将结果通过InfiniBand网络写入到存储系统,同时将元数据信息写入数据库以供用户查询分析。
数据应用层提供系统与用户的界面接口,提供应用产品开发、应用平台及统一分发门户等丰富的数据查询展示接口与平台,提供高效的元数据搜索、浏览、下载服务和多种定制分发功能,满足不同领域用户的多样化需求。
当前我国陆地观测卫星数据中心的体系架构以满足用户需求为导向,尚未对具有“3V”特征且不能用常规手段处理的陆地观测卫星大数据进行适应性分析与设计。随着硬件成本的降低、网络带宽的提升,特别是分布式计算技术、网络技术、存储技术、智能终端及物联网等新技术的兴起与发展,陆地观测卫星数据的时空尺度和要素类型全面拓展,其种类和数据量急剧增长,逐渐呈现出多源、多维、大量、多态和高速的大数据特征,同时用户在大数据时代对数据信息的需求逐渐呈现多元化趋势。有效处理、存储、分析和应用这些大数据,满足用户的多元化需求已经成为未来我国陆地观测卫星数据中心信息化发展的关键技术之一。
-
随着我国国民经济的高速发展及社会综合能力的快速提升,遥感应用越来越受到国家、行业及地方政府的重视,体系化、产业化发展的趋势日益明显。特别是随着遥感大数据时代的到来,技术的进步拓展了遥感应用的深度、广度和频度,对我国陆地观测卫星数据中心的发展提出了新的挑战。
-
陆地观测卫星数据类型及应用类型逐渐呈现出多样性特征。数据类型多样性不仅包括可见光、红外、微波及大气探测等不同类型载荷遥感卫星的原始数据,还有卫星星上定标数据、实验室/实验场定标数据、基础地理信息数据、地物波谱信息及社会经济数据、土地应用分类数据等类型数据。由于用户群体数量快速扩展,应用需求层次不断深入,以国土资源调查、地矿资源调查、森林防火、环境监测、农业估产、污染减排、大气成分与气候变化监测等为代表的各应用领域均对遥感数据提出了特有的多样性需求。
-
CRESDA目前存储管理16颗陆地观测卫星5大类型载荷的遥感数据,空间分辨率从环境一号B星红外多光谱相机的300 m到高分二号全色相机的0.8 m。卫星数量的增加及有效载荷空间分辨率的提高,导致地面处理系统需要存储管理的遥感卫星数据量急速增长。遥感卫星数据是重要的基础资源,需要永久存储管理,且要保证随时提供浏览检索和数据分发。目前,CRESDA每天增长的原始数据量约为5.2 TB,生产标准产品约1.8 TB,一年的数据增长量为2.5 PB。随着未来卫星的密集发射,数据量将急剧增长,系统对存储容量的需求未来会高达上百PB。
截至2015年年底,CRESDA存档陆地观测卫星数据800万景,归档数据量达8 PB,共分发1 200万景陆地观测卫星数据。从2000年的1 000景到2015年的370万景,16年间分发量增长超过3 700倍,如图 2所示。
-
用户对数据处理及应用产品时效性的需求越来越高。用户在常规应用及地震救援、森林火情、防洪救灾等灾害救援方面,需要实时或近实时提供高精度、高质量的产品。根据卫星轨道特点及成像模式的不同,通常用户的需求是处理系统接收到原始数据到提供用户需要的标准产品的时间优于45 min,而目前高分四号卫星气象应急需求提出了接收到原始数据后10 min内获取标准产品的需求,这对数据传输、处理、存储及分发的时效性提出迫切需求。
-
近4年来14颗陆地观测卫星的密集发射对系统可扩展性提出了紧迫的需求。陆地观测卫星数据是海量的,且存储容量和存储性能随着业务量增长而增长。通常一套系统在建设初期数据存储和处理量不大,但随着时间的积累会出现爆发式的增长,而硬件设备及商业软件的更新换代越来越快。如果一次性投入,前期将造成较大的资源浪费,后期存储系统容量及性能不足的时候又较难扩展。同时,随着陆地观测卫星载荷数据的多样性及用户需求的不断变化和深入,对数据处理算法的可扩展性也提出了迫切需求。
-
自1999年建成CBERS-01星数据处理系统以来,CRESDA陆续建成了多套数据处理系统,各系统有独立的计算、存储、软件及算法等资源,这些资源尚未得到很好的统筹利用。统筹利用已有资源,才能充分发挥已投入资金的最大效益。
当前我国陆地观测卫星数据中心建设面临的挑战既多且复杂,有些需要人们不懈努力投入较长时间应对解决,上述5点是大数据时代亟待应对且通过技术途径可以解决的。针对上述挑战,必须统筹系统的顶层设计,既要满足当前系统的建设需求,也要为未来留有足够的发展空间;既要充分利用当前的设备和技术,又要考虑将来设备和技术的更新换代,因此加强系统的顶层设计是大数据时代陆地观测卫星数据中心建设的关键。
-
根据当前陆地观测卫星数据中心系统架构及运行现状,支持大数据处理与分析的陆地观测卫星数据中心采用分布式计算技术,统筹利用不同系统、不同物理位置的计算资源及算法资源,采用高性能分布式存储系统加强数据存取的时效性及安全性,解决系统面临的高可扩展性的需求。大数据技术的应用,同时可以解决数据及应用的多样性、存储的规模性及提供数据的时效性需求,实现数据中心技术水平的提升和综合性能的提高,为未来陆地观测卫星数据中心的系统演进提供思路。
该系统以数据在线化为基础,支持面向应用的存储与分发服务,支持横向跨行业、纵向跨历史的数据分析;利用分布式计算及计算与数据的一体化,创新以数据和信息服务为核心的新的应用模式;同时通过系统架构的线性可扩展性,支持未来新发射的陆地观测卫星地面系统快速建设和在线接入。
因此,本文提出了一种基于Hadoop平台支持大数据处理与分析的陆地观测卫星数据中心架构解决方案。
-
Hadoop平台是Apache基金会基于谷歌文件系统(Google File System,GFS)与MapReduce实现的一个开源分布式平台。目前已经发展成为包括分布式文件系统(HDFS)、列式数据库(HBase)、资源管理器(YARN)、分布式协调系统(ZooKeeper)以及多种计算框架(MapReduce,Spark,Strom)在内的完善的生态圈。Hadoop平台具有高可靠、高并发、高扩展的特征,支持海量数据在线化、可计算化。整个系统架构分为大数据获取层、基于Hadoop的大数据平台层、大数据处理及分析层和大数据应用层,系统架构如图 3所示。
图 3 基于Hadoop的大数据陆地观测卫星数据中心架构解决方案
Figure 3. Architecture Solution of Hadoop-Based Land Observing Satellite Data Center
该架构的核心是基于Hadoop的大数据平台,该平台基于分布式文件系统HDFS建立陆地观测卫星数据存储策略,满足不同时效性数据的存储及读取需求。采用YARN作为Hadoop的资源管理器,允许多个应用程序同时、高效地运行在一个集群上。MapReduce分布式计算框架完成数据信息快速分布式处理,Spark及其mllib等作为数据分析工具,Storm用来处理流式数据,Hive数据仓库、HBase列式数据库系统用来存储管理海量数据,ZooKeeper分布式协调系统进行协同服务,而Pig及基于Lucene开发的Elastic Search及其他引擎则用来满足不同用户对大数据检索等的应用需求。
大数据处理及分析层在现有基础上,构建基于多系统计算集群的分布式大数据计算集群来进行大数据处理及分析,统筹利用已有资源,充分发挥效益,满足大数据处理与分析的高时效性需求;同时根据大数据应用层各种具体应用的需求,进行共性分析和归并,形成控制点匹配、波段配准、融合、分类、图像编码、矢量计算等工具集。
大数据获取层和大数据应用层继承当前系统的功能并针对大数据需求进行适应性扩充。其中,大数据获取层能获取的数据种类更丰富,且提供扩展接口,满足系统后续扩展的需要。大数据应用层在当前的基础上扩充应用接口,除提供已有的服务外,还提供用户定制服务、多元元数据服务和空间数据共享服务,根据用户需求定制相应的数据分析接口并给出丰富的结果表现形式。
-
陆地观测卫星数据中心是遥感卫星数据规模化、产业化应用的基础。我国陆地观测卫星数据中心正在逐步从以数据处理、产品生产为核心,向以数据及其信息产品服务为核心转变。陆地观测卫星遥感数据的种类和数量飞速增长,但用户最终需要的不是遥感数据本身,而是遥感数据中蕴含的各种信息。只有为用户提供全面、深层次的数据产品及其信息服务,才能充分发挥遥感数据的价值和作用。为深入挖掘蕴藏在遥感数据中丰富的信息,基于Hadoop的大数据陆地观测卫星数据中心的应用流程可抽象为三步,如图 4所示。
图 4 基于Hadoop的陆地观测卫星数据应用流程
Figure 4. Application Flow of Hadoop-Based Land Observing Satellite Data Center
1)大数据获取与处理。数据获取系统接收陆地观测卫星遥感数据及其他渠道获取的数据,通过高速网络高效进行分布式存储与计算,将计算结果存入存储系统,并将元数据信息写入数据库。
2)大数据分析。数据的核心价值在于应用,大数据分析是应用的前提。在数据组织模式与体系的支持下进行数据分析与归并,进行多源、多维、大量和多态的大数据分析,并将分析结果存入数据库,供应用查询及更深层次的大数据分析使用。
3)大数据应用与展示。大数据分析结果的应用与常规数据分析结果的应用一样,需要有效的表示方式,以帮助用户正确理解和应用分析成果。由于大数据分析的结果往往是复杂的时空关联关系,因此,基于GIS的多维可视化、标签云、历史流、空间信息流等技术的应用是必要的。同时,根据陆地观测卫星数据的应用特点,让用户动态参与并加入先验知识的大数据分析与结果展示技术,更适合遥感卫星大数据的分析与数据应用需求。
支持大数据处理与分析的陆地观测卫星数据中心,与一般的陆地观测卫星数据中心的主要区别在于数据处理和存储的类型更丰富,处理与存储能力更强,数据应用的模式及技术更加先进。但是,从遥感卫星信息化发展的角度看,支持大数据的陆地观测卫星数据中心并不是一般陆地观测卫星数据中心的替代,而是遥感卫星信息化发展的扩展,因为在陆地观测卫星业务应用中,不但有大数据分析支持的应用,还有常规的应用。
-
在提出上述架构的基础上,CRESDA对现有的陆地观测卫星数据处理系统基础层进行了初步改造,包含HDFS、YARN、HBase等,并选取了部分应用进行验证。
基础层改造后,重点解决了集中式磁盘阵列存储带宽性能瓶颈和在线容量难以扩充的问题。将现有系统800 TB在线磁盘阵列扩展为177节点6.6 PB的集群存储系统,在线存储容量提高到原来的8倍以上,可实现全国高分辨率影像的实时分布式在线查询、处理与分发服务。在线存储容量的扩充使得需要从近线甚至离线存储区恢复的数据,可直接在线进行计算。同时,大量节点的分布式架构,使得在线存储的聚合读写带宽由原来的3.2 GB/s提高到14.3 GB/s,是原有系统的近4.5倍(见图 5),对于完成大范围的正射校正、融合、镶嵌等基础计算任务,其总体效率提高36倍以上,对于原来难以实现的大范围长周期在线实时分析等应用,也可通过大量节点的分布式计算轻易实现。
-
大数据技术是正在发展中的信息技术,是数据变大导致的技术革新与发展。随着数据更大规模生产与应用,大数据技术也将不断发展。陆地观测卫星大数据目前还没有大到常规技术无法解决的程度。但是,随着国家信息化推动下的管理观念与政策应用的变化,以及信息技术更深入与全面的应用,陆地观测卫星数据中心将面临管理更多复杂类型数据的局面。因此,对支持大数据的陆地观测卫星数据中心展开研究是遥感卫星信息化发展的迫切需要。
本文提出的基于Hadoop的大数据陆地观测卫星数据中心架构,是对陆地观测卫星数据中心发展思路的一种扩充,已在当前陆地观测卫星数据中心进行适应性改造实验,并取得阶段性成果。后续将在中国陆地观测卫星数据中心的建设中进一步实践与完善,以期提升其对国家决策的支持能力,提升国家的空间信息资源应用水平,培育我国陆地观测卫星数据应用新的经济增长点。
-
摘要: 为应对陆地观测卫星数据及应用的多样性、存储数据规模的急速增长、数据处理与应用的高时效性、系统高可扩展性、系统资源整合的紧迫性等挑战,结合大数据技术,提出了一种基于Hadoop平台支持大数据处理与分析的陆地观测卫星数据中心架构解决方案,以提高陆地观测卫星数据利用水平与决策支持能力,提升国家空间信息资源应用水平,培育我国陆地观测卫星数据应用新的经济增长点。Abstract: Land Observing Satellite Data Center is the core platform for storing, distributing, processing, and integrating land observing satellite resources. It can provide high quality and effective services for the State Council and the relevant departments of government and local authorities. In the era of big data, the data center benefits from big data opportunities as well as suffering from big data challenges. In this paper, the big data challenges in the center are discussed and then a big data solution is presented. In particular, five major challenges include the 3V dimensions of big data (i.e. Volume, Variety, and Velocity) and the specific challenges in the CRESDA, i.e., extensibility and integration (of multiple disparate management systems). To tackle the challenges aforementioned, a distributed architecture is proposed to manage all resources inside the data center thanks to the Hadoop-like framework for storing and processing the big remote sensing data. It is hoped that the proposed architecture can lend more support to national decision-making, improve the country's spatial information resources application level and serves as a new economic growth source of land observing satellite data applications.
-
Key words:
- land observing satellite /
- data center /
- big data /
- system architecture /
- Hadoop
-
-
[1] Grobelnik M. Big Data Computing:Creating Revolutionary Breakthroughsin Commerce, Science and Society[EB/OL]. http://videolectures.net/eswc-2012_grobelnik_big_data, 2012 [2] Nature. Big Data[EB/OL]. http://www.nature.com/news/special/bigdata/index.html, 2012 [3] Science. Special Online Collection:Dealing with Data[EB/OL]. http://www.sciencemag.org/site/special/data, 2012 [4] The White House Office of Science and Technology Policy. Big Data Across the Federal Government[EB/OL]. http://www.whitehouse.gov/sites/default/fi-les/microsites/ostp/big_data_fact_final_1.pdf, 2012 [5] Kapil B. Considerations for Big Data:Architecture and Approach[C]. IEEE Aerospace Conference, Big Sky, Montana, 2012 [6] 维克多·迈尔-舍恩伯格, 肯尼思·库克耶.大数据时代[M].杭州:浙江人民出版社, 2013 Mayer-Schönberger V, Cukier K. Big Data[M]. Hangzhou:Zhejiang People's Press, 2013 [7] 徐文.我国陆地观测卫星现状及发展战略思考[J].中国科学:信息科学, 2011, 41(增刊):1-9 http://www.cnki.com.cn/Article/CJFDTOTAL-PZKX2011S1003.htm Xu Wen. Current Situation and Considerations on the Strategic Development of China's Land Observation Satellites[J]. Scientia Sinica Informationis, 2011, 41(supplement):1-9 http://www.cnki.com.cn/Article/CJFDTOTAL-PZKX2011S1003.htm [8] 张晓祥.大数据时代的空间分析[J].武汉大学学报·信息科学版, 2014, 39(6):655-659 http://ch.whu.edu.cn/CN/abstract/abstract3010.shtml Zhang Xiaoxiang. Spatial Analysis in the Era of Big Data[J]. Geomatics and Information Science of Wuhan University, 2014, 39(6):655-659 http://ch.whu.edu.cn/CN/abstract/abstract3010.shtml [9] Xu Wen, Gong Jianya, Wang Mi. Development, Application, and Prospects for Chinese Land Observation Satellites[J]. Geo-spatial Information Science, 2014, 17(2):102-109 doi: 10.1080/10095020.2014.917454 [10] 李清泉, 李德仁.大数据GIS[J].武汉大学学报·信息科学版, 2014, 39(6):641-644 http://ch.whu.edu.cn/CN/abstract/abstract3000.shtml Li Qingquan, Li Deren. Big Data GIS[J]. Geomatics and Information Science of Wuhan University, 2014, 39(6):641-644 http://ch.whu.edu.cn/CN/abstract/abstract3000.shtml [11] 陆锋, 张恒才.大数据与广义GIS[J].武汉大学学报·信息科学版, 2014, 39(6):645-654 http://ch.whu.edu.cn/CN/abstract/abstract3009.shtml Lu Feng, Zhang Hengcai. Big Data and Generalized GIS[J]. Geomatics and Information Science of Wuhan University, 2014, 39(6):645-654 http://ch.whu.edu.cn/CN/abstract/abstract3009.shtml [12] Mayilvaganan M, Sabitha M. A Cloud-Based Architecture for Big-Data Analytics in Smart Grid:A Proposal[C]. IEEE International Conference on Computational Intelligence and Computing Research, Madurai, India, 2013 [13] Michael K, Miller K W. Big Data:New Opportunities and New Challenges[J]. IEEE Computer, 2013, 46(6):22-24 doi: 10.1109/MC.2013.196 [14] 孟小峰, 慈祥.大数据管理:概念, 技术与挑战[J].计算机研究与发展, 2013, 50(1):146-169 http://www.cnki.com.cn/Article/CJFDTOTAL-JFYZ201301020.htm Meng Xiaofeng, Ci Xiang. Big Data Management:Concepts, Techniques and Challenges[J]. Journal of Computer Research and Development. 2013, 50(1):146-169 http://www.cnki.com.cn/Article/CJFDTOTAL-JFYZ201301020.htm [15] Craig A L, Samuel D G, Antonio P, et al. Recent Developments in High Performance Computing for Remote Sensing:A Review[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2011, 4(3):508-527 doi: 10.1109/JSTARS.2011.2162643 [16] Tran Q. A Solution for Privacy Protection in MapReduce[C]. The 36th Annual Computer Software and Applications Conference, Izmir, Turkey, 2012 [17] 李德仁, 王树良, 史文中, 等.论空间数据挖掘和知识发现[J].武汉大学学报·信息科学版, 2001, 26(6):491-499 http://ch.whu.edu.cn/CN/abstract/abstract5220.shtml Li Deren, Wang Shuliang, Shi Wenzhong, et al. On Spatial Data Mining and Knowledge Discovery[J]. Geomatics and Information Science of Wuhan University, 2001, 26(6):491-499 http://ch.whu.edu.cn/CN/abstract/abstract5220.shtml [18] 李德仁, 王树良, 李德毅.空间数据挖掘理论与应用[M].北京:科学出版社, 2013 Li Deren, Wang Shuliang, Li Deyi. Theories and Application of Spatial Data Mining[M]. Beijing:Science Press, 2013 [19] Chaudhuri S. How Different is Big Data?[C]. The 2012 IEEE 28th International Conference on Data Engineering, Washington, 2012 [20] Wu H Q. ICT's 2012[EB/OL]. http://wenku.baidu.com/view/874185c08bd63186bcebbc8f.html, 2012 -