文章信息
- 魏海涛, 杜云艳, 周成虎, 易嘉伟
- WEI Haitao, DU Yunyan, ZHOU Chenghu, YI Jiawei
- 利用ANNS的空间信息处理服务智能集成算法
- An Intelligent Approach to Integrating Spatial Information Processing Services
- 武汉大学学报·信息科学版, 2015, 40(1): 14-19
- Geomatics and Information Science of Wuhan University, 2015, 40(1): 14-19
- http://dx.doi.org/10.13203/j.whugis20130136
-
文章历史
- 收稿日期:2014-05-15
2. 中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室, 北京, 100101
2. LREIS, Institute of Geographic Sciences and Natural Resources Research, CAS, Beijing 100101, China
随着网络技术的发展,大量的数据和计算资源以服务的形式提供给终端用户,但目前单个服务的功能单一,利用率低。为了提高空间信息服务资源的利用率,将多个服务快速组合成服务链以满足复杂应用需求成为现阶段空间信息智能服务的研究趋势。目前,网络服务组合建模方式较多,可分为业务流驱动和即时任务求解两类。业务流驱动方式[1, 2, 3, 4, 5, 6]以业务流程为基础将可用服务进行组合,发展比较成熟,但该方法以业务流程为基础,建模后为绑定Web服务,存在服务组合受控于业务流程的缺点;即时任务求解方式中,服务组合的过程根据应用领域和工作流分析请求进行,即时任务求解动态组合服务方式是目前研究的一个主要方向[4, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16]。现有的方法不但能满足功能性的业务需求,也较好地满足了质量期望,但在服务组合的生成过程中,以服务建模为前提,然后完成建模问题与规划问题的映射,最后匹配服务,时间效率不高。本文提出的空间信息处理服务智能集成方法面向地学信息处理(geoprcessing,GP)服务,该服务的输入输出参数有严格的格式要求,服务描述严格满足QoS[17, 18, 19]。鉴于此特点,本文方法结合人工神经元网络(artificial neural networks,ANNS)算法的思想,其算法过程为:通过语义匹配搜索核心服务,通过接口匹配算法查找中间神经元,生成最优神经网络,通过综合加权匹配度算法选取最优算法,从而达到处理信息的目的。本文方法的特点是根据用户需求自上而下地生成服务链,通用性比较强,无需特定的模型,服务链的创建和实例化在无需人工干预的情况下同时完成,最大限度地节约了服务执行时间,提高了运算效率。 1 服务的语义描述与匹配算法
服务的智能集成方法主要包括服务的语义描述、发现服务和面向应用生成服务链。为了适应本文提出的基于ANNS的智能服务集成算法的需求,对服务的语义描述和发现的匹配算法做了一些改进。 1.1 服务的语义描述方法
为了能准确地查找所需服务,空间信息服务的描述显得尤为重要,很多学者也进行了大量的研究,提出了若干描述空间信息的方法。结合前人方法的优缺点,针对本文提出的智能服务集成方法的特点,本文在创建本体的过程中,基于地理本体的四元组构建模型。实例化服务的描述从以下几个方面来刻画:模型分类;输入/输出;服务操作的前提和后效。实例化服务梯状描述信息如下所示:服务=[功能专题]+[输入/输出数据];功能专题=[名称]+[功能]+[分类]+[描述]+[功能细化]+[相关服务]+[响应时间];输入/输出数据=[参数个数]+[参数信息(数据类型、数据大小、空间参考)]+[描述]。
功能专题包括名称、功能和描述等模块。针对GP服务的特点,功能细化标示了GP服务的功能梯状分类,如Kriging插值往上所属依次为表面分析、数据分析、基础模型;相关服务标注了与此功能相似的其他服务,主要包括与此服务有习惯上的先后顺序关系的服务(例如,裁剪服务后面习惯是缓冲区服务);响应时间标注了此服务最大执行时间(包括数据处理和传输时间)。
输入/输出数据中,参数个数是服务入口及出口参数的个数,参数信息中标示了数据的类型和大小,数据大小是根据最佳响应时间得出的最优数据分配量,空间参考描述了输入/输出数据的空间坐标,描述信息对GP服务的其他细节进行描述,包括同步异步、稳定性等信息。 1.2 服务匹配算法
依据本体概念之间的匹配度来发现可能符合条件的服务是查找服务的一个重要方式,目前有很多学者从不同角度对匹配算法进行了研究[20, 21, 22, 23],服务之间的匹配关系是服务接口概念之间的关系,大体分为精确匹配、插入匹配、包含匹配和不包含匹配,利用服务的综合加权匹配度[24](概念匹配度、时间范围匹配度、时间跨度匹配度、空间范围匹配度、空间粒度匹配度等)来选择最优的服务(链),为服务的发现提供定量的指标参考,本文在不影响查全效率和查准率的前提下,采取了以服务接口匹配为主、功能语义为辅的接口匹配算法,将服务查找范围锁定到更小的范围。 2 基于ANNS的空间信息服务智能集成算法
基于ANNS的空间信息服务智能集成方法的基本思想见图 1。围绕具体的用户需求,通过lingpipe(alias公司开发的一款自然语言处理软件包)解析用户语义描述请求;用户请求和所需服务映射部分根据用户请求文本描述与GIS语义对应表[25]进行解析;利用突触原理,采用综合加权匹配算法,将核心服务的语义描述作为筛选条件向四周扩展,检索出所需的相应的前序和后续服务;并采用服务智能集成索引函数(automatic combination index,ACI)对前序和后序服务进行索引,从而智能地生成满足应用需求的空间信息服务链。
基于ANNS的服务智能集成方法的流程如图 2所示,主要包括以下几部分:
1)用户需求的语义提取。通过语义描述提取初始状态和目标状态,初始状态主要包括完成此任务所需的数据和处理的语义描述,目标状态主要包括用户希望的最终结果显示方式的语义描述。
2)查找核心服务。从初始状态构建模块中的目标任务集合信息中,找出若干个原子服务或服务链,根据初始状态的数据信息选择最佳的原子服务、服务链或服务组合。
3)确定前序/后序服务。采用功能+接口匹配算法,根据对应服务的输入/输出语义特征,与其他服务的语义描述(接口语义描述和功能语义描述)不断循环匹配。查找前序服务的退出条件是初始状态的数据信息与服务的输入信息相吻合,查找后序服务的退出条件是目标任务集合中的数据信息与服务的输出信息相吻合,查找到前、后序服务后,采用ACI进行索引标注。
4)选择最优服务链。根据综合加权匹配算法从众多的服务链中选取最优服务链。
5)绑定数据源。在此算法中,数据流作为独立的对象存在,通过赋值将服务的数据输入与数据源进行绑定。
在查找前序/后序服务时,特别是存在多个核心服务时,查找的过程是并行无序的。为了将发现的服务链有序地串行或并行执行,本文利用服务智能集成索引函数标示各个服务的相关次序。ACI= < H,IO,S > 由三部分组成:H表示核心服务的执行顺序,赋值从1到n;IO表示核心服务的前序/后序服务,当值为0时,表示是核心服务,当值为1时,表示是前序服务,当值为2时,表示是后序服务;S表示以核心服务为中心开始的第几个服务。
前序/后序服务的查找规则与核心服务的个数有关。
1)核心服务有一个时,采用规则一。接口匹配算法的初始条件为数据源,终止条件为用户需求结果的语义描述,语义查找中间服务,其ACI<H,IO,S>中IO的取值为0、1、2。
2)核心服务有多个时,采用规则二。第一个核心服务的接口匹配算法的初始条件为数据源,终止条件为下一个核心服务的输入,其ACI<H,IO,S>中IO的取值为0、1、2;最后一个核心服务的初始条件为本核心服务的输出,终止条件是用户需求结果的语义描述,其ACI<H,IO,S> 中IO的取值为0、2;其他核心服务的初始条件是本核心服务的输出,终止条件是下一个核心服务的输入,其ACI<H,IO,S> 中IO的取值为0、2。不断查找匹配,动态地生成面向应用的服务链,例如ACI<3,2,1>中,3代表第三个核心服务,2代表核心服务的后序服务,1代表核心服务的第一个后序服务,为服务链的执行提供标示。
在服务的查找过程中,匹配度的计算是查找服务是否是所需的一个定量指标。本文方法中主要涉及三个方面的服务匹配算法,首先是核心服务的匹配算法,其次是核心服务前、后序服务的匹配算法,最后是服务链的优化匹配算法。对于核心服务,采用服务功能描述与目标任务进行匹配的方法;前、后序服务的匹配算法采用接口匹配算法,首先将服务按功能进行分类,再进行输入输出参数的匹配,包括参数个数、数据类型和大小进行匹配,匹配的初始条件和终止条件与前后两个核心服务的参数有关,选取匹配度较高的服务作为服务链的一部分;生成众多服务链后采用综合加权匹配度算法,选取概念匹配度和数据匹配度(主要包括原始数据和目标数据)作为主要的指标参考,即根据前面的概念语义匹配和接口匹配(数据匹配)分别设置的权重,综合计算选取值最大的服务链作为最优服务链。 3 研究实例 3.1 需解决的问题
本文以海表面温度数据获取与分析为例进行 了实验。用户需求为“南海区温度变化曲线图”。 以表层漂流浮标(加拿大Marine Environmental Data Service提供)和ARGO数据(美国Global Ocean Data Assimilation Experiment提供)信息为主,通过插值处理获取海表面温度数据。相关的服务和服务链如表 1、2所示。
3.2 实验环境及方法实验采用Protégé3.5作为领域本体建模工具,服务的描述采用系统自动生成和人工标注,根据服务类型进行了分类。服务使用者对服务通过Profile提供的信息进行查找,当用户通过框选选择了相应区域的数据,根据数据源分析需要,采用自然邻域插值方法能较好地完成数据插值处理任务,将结果用折线图显示,流程见图 3。
实验流程如图 4所示。
具体过程为:根据用户提出的请求、数据源的特征和服务的语义描述,查找出核心服务包括IDW插值、计算平均值和曲线图显示;根据其输入/输出数据的语义描述,参考各个过程的匹配规则,通过索引函数的标示来查找和标示其前序/后序所需的服务;通过匹配算法找出最优服务链,此时的服务链已经实例化;可行性的检查主要是通过语法检查,包括两个方面是否含有孤立点(有输入无输出,无输入有输出等)和是否存在局部回路(服务链从头至尾顺序查找,默认同一服务不能连续出现两次);丰富模型库,将可行性服务链以服务的形式发布,供以后查找使用,所需服务和ACI赋值如图 3所示。 3.3 实验结果对比分析
1)时间效率。本文将基于ANNS的智能服务集成与基于遗传算法的自动化服务组合方法[9](根据用户提交请求,基于遗传算法自动生成服务链)进行对比。当用户提出相同的请求时,两者产生的服务链不尽相同,本文方法产生的服务链多基于已有的服务链(IDWTableGP),而基于遗传算法的组合方法多基于原子服务(raster to table,IDWGP),其返回结果完全一致,证明了本文方法 的可行性。为了证明时间上的优势,进行了以下实验:从Argo数据和表层浮标数据(总计297446个点)中提取SST值做插值运算,计算各个时间段的平均SST。在同等条件下,通过改变数据量和空间范围进行了多次实验,对结果进行平均,得出时间列表,如表 3所示。
由加速比N>1可知,本文提出的方法明显优于基于遗传算法的自动化服务组合方法,原因为:虽然两者都自顶向下地智能自动化匹配算法,但遗传算法的服务匹配和组合算法标示和选择最优服务组合的过程是一个迭代的过程(O(n2)), 相对本文方法的非线性随机组合(O(n)),过程较复杂。
2)正确性。利用基于ANNS的智能服务集成和ArcGIS的桌面功能多次计算南海区平均温度,通过改变数据源和数据量,利用Argo数据和表层浮标数据分别计算海表面温度,通过显著性犜检验得出本文方法与ArcGIS软件得到的结果完全一致,验证了本文方法的可行性。 4 结 语
本文基于神经网络的思想提出了一种服务智能组合方法,该方法以服务的语义描述为基础,通过服务匹配算法查找服务,最终由ACI将所需服务链接起来,执行服务链,完成用户的请求。ACI函数为处理复杂任务时多个无序的服务组合和计算机的有序执行之间架起了一座桥梁;匹配算法将接口和功能语义描述相结合,最大限度地避免了不同的服务具有相同的输入、输出所造成的查找可靠性低的弊端。本文方法的缺点为:在服务链实例化的过程中,数据流从服务链的开始进入,到结束输出,没有考虑服务链中间某些原子服务需从外界输入数据的情况。这也是进一步研究的重要内容。
[1] | Menascé D A, Casalicchio E, Dubey V. A Heuristic Approach to Optimal Service Selection in Service Oriented Architectures[C]. The 7th International Workshop on Software and Performance, New York, 2008 |
[2] | Menascé D A, Casalicchio E, Dubey V. On Optimal Service Selection in Service Oriented Architectures[J]. Performance Evaluation, 2010,67(8): 659-675 |
[3] | Ren K, Xiao N, Chen J. Building Quick Service Query List Using WordNet and Multiple Heterogeneous Ontologies Toward More Realistic Service Composition[J]. IEEE Transactions of Services Computing, 2011,4(3): 216-229 |
[4] | Lécué F, Léger A. Semantic Web Service Composition Through a Matchmaking of Domain[C]. The Fourth IEEE European Conference on Web Services, France,2006 |
[5] | Lutz M. Ontology-Based Service Discovery in Spatial Data Infrastructures[C]. The 2005 Workshop on Geographic Information Retrieval,Bremen, Germany,2005 |
[6] | Xu Chengzhi, Peng Liang, Wang T G, et al. Semantic Web Services Annotation and Composition Based on er Model[C]. IEEE International Conference on Sensor Networks, Ubiquitous, and Trustworthy Computing, Newport Beach, CA, 2010 |
[7] | Gu Z, Li J, Xu B. Automatic Service Composition Based on Enhanced Service Dependency Graph[C].IEEE International Conference on Web Services, Beijing, 2008 |
[8] | Falou E , Bouzid M ,Mouaddib A, et al. A Distributed Planning Approach for Web Services Composition[C]. IEEE International Conference on Web Services,Miami,FL,2010 |
[9] | Yang S, Fan Y, Kuo J, et al. Towards a Genetic Algorithm Approach to Automating Workflow Composition for Web Services with Transactional and Qos-awareness[C].IEEE World Congress on Services (ServiceS),Washington D C,2011 |
[10] | Zhang R, Arpinar I B, Aleman-Meza B. Automatic Composition of Semantic Web Services[C].IEEE International Conference on Web Services, Salt Lake City,UT,2003 |
[11] | Sirin E,Parsia B, Wu D, et al. HTN Planning for Web Service Composition Using SHOP2[C]. International Semantic Web Conference,Florida, 2003 |
[12] | Kun C, Xu J, Reiff-Marganiec S. Markov-htn Planning Approach to Enhance Flexibility of Automatic Web Service Composition[C]. IEEE International Conference on in Web Services, CA, 2009 |
[13] | Mayer W, Thiagarajan R, Stumptner M. Service Composition as Generative Constraint Satisfaction[C].IEEE International Conference on in Web Services, Los Angeles, CA,2009 |
[14] | Liao Jianxin, Liu Yang, Wang Jingyu, et al. Service Composition Based on Niching Particle Swarm Optimization in Service Overlay Networks[J]. KSII Transactions on Internet & Information Systems, 2012,6(4): 1 106-1 127 |
[15] | Liao Jianxin, Liu Yang, Zhu Xiaomin, et al. Niching Particle Swarm Optimization Algorithm for Service Composition[C]. Global Telecommunications Conference, Houston, TX,2011 |
[16] | Liao Jianxin, Liu Yang, Zhu Xiaomin, et al. Accurate Sub-swarms Particle Swarm Optimization Algorithm for Service Composition[J]. Journal of Systems and Software, 2014,90:191-203 |
[17] | Fitzner D, Hoffmann J, Klien E. Functional Description of Geoprocessing Services as Conjunctive Datalog Queries[J]. Geoinformatica, 2011,15(1): 191-221 |
[18] | Di L, Zhao P, Yang W, et al. Ontology-Driven Automatic Geospatial-Drocessing Modeling Based on Web-Service Chaining[C].The Sixth Annual NASA Earth Science Technology Conference, Dresden, Germany,2006 |
[19] | Lutz M. Ontology-Based Descriptions for Semantic Discovery and Composition of Geoprocessing Services[J]. Geoinformatica, 2007, 11(1): 1-36 |
[20] | Küster U, KÖnig-Ries B, Stern B, et al. Diane: An Integrated Approach to Automated Service Discovery, Matchmaking and Composition[C]. The 16th International Conference on World Wide Web, Canada,2007 |
[21] | Liu Fangfang, Shi Yuliang, Yu Jie, et al. Measuring Similarity of Web Services Based on WSDL[C]. IEEE International Conference on Web Services, Miami, Florida,2010 |
[22] | Cardellini V, Casalicchio E, Grassi V, et al. Flow-Based Service Selection for Web Service Composition Supporting Multiple Qos Classes[C].IEEE International Conference on Web Services, Salt Lake City, Utah,2007 |
[23] | Karnik N, Kumar A, Kundu A, et al. A Service Creation Environment Based on End to End Composition of Web Services[C]. The 14th International conference on World Wide Web, New York,2005 |
[24] | Xiao Rulin. Marine Geographic Information Service Research Based on the Semantic[D]. Beijing: Chinese Academy of Sciences, 2009(肖如林. 语义支持的海洋地理信息服务研究[D]. 北京:中国科学院, 2009) |
[25] | Pan Yin. A Preliminary Study of GIS Semantic Mining Based on Requirement Text[D].Nanjing: Nanjing Normal University,2004(潘莹.基于需求文本的 GIS 语义挖掘初步研究[D].南京:南京师范大学,2004) |