-
水文模型已广泛应用于水利工程规划设计、洪水预报、气候变化响应模拟和水资源综合管理等领域[1]。随着应用领域的不断扩大,水文模型的用户不再局限于专业的水文科研人员,其他领域的科研人员和管理决策者对水文模型的需求也迫切起来。
水文模型的参数设置对建模者来说是一项复杂、繁琐的知识密集型工作。运行模型前,建模者需要设置的模型参数可分为两类[2]。一是流域水文特征参数,如流域坡度、面积、地形湿度指数 (topographic wetness index,TWI)、土壤孔隙率、不透水面积比率等。这类参数具有明确物理含义,可根据下垫面数据 (如DEM、土壤类型、土地利用等) 提取,一般涉及大量的操作流程。另一类是水文过程参数,如消退系数、非饱和区最大蓄水容量、蒸散发系数等。这类参数随流域降雨径流特性及下垫面条件而变化,很难通过物理分析的方法来推算,一般需要在特定的参数范围内通过率定方式来获取。
现有水文建模工具一般要求建模者手动提取参数或设置参数范围[3],建模者需投入大量时间、精力去熟悉软件的操作流程知识并掌握专业的水文知识, 这增加了模型的应用难度,降低了模型的实用性。若能以智能化的参数设置方式代替现有的手动设置方式,则能在一定程度上降低水文建模的难度。因此,本文针对水文模型参数的智能化设置开展了探索性研究。
-
水文模型的参数设置作为一项知识密集型的工作,很大程度上依赖于专业知识和经验。知识驱动的方法是解决知识密集型问题的有效途径,可以规避对用户知识的完全依赖,在地学建模领域已得到应用[4, 5]。为降低水文模型参数设置对建模者知识和经验的要求,本文尝试将知识驱动的方法应用于水文建模中参数提取和取值范围设置的智能化实现。
知识驱动方法的关键是知识的形式化表达和推理。其中,知识的形式化表达指把人类知识表示为计算机可处理的数据结构,使计算机能够识别和处理;知识推理指计算机利用形式化的知识进行问题求解[6]。本研究将模型参数设置的知识分为参数提取流程知识和参数范围知识两类,分别针对这两类知识进行形式化表达和推理机设计,并结合工作流和参数自动优化技术实现参数提取和参数率定的智能化。
-
1) 参数提取知识
参数提取前需明确两部分内容。首先,通过提取方式获得的水文模型参数,如TOPMODEL (TOPographic MODEL) 模型中的TWI分布曲线参数,该参数可由DEM通过一系列预处理算法操作流程计算得到 (图 1) [7];其次预处理算法的输入项和输出项,根据预处理算法间的输入-输出关系,确定各预处理算法的执行顺序,通过软件操作依次执行各个预处理操作,计算待提取的参数。上述过程可抽象为根据算法的输入、输出项,以目标为驱动反向动态构建概念工作流的过程,该过程中所使用的“参数提取知识”是对水文模型中待提取的参数和各个预处理算法的输入和输出项的客观陈述。
2) 参数提取知识的形式化表达
上述参数提取知识属于陈述性知识[8],可用语义网中的资源描述框架 (resource description framework,RDF) 进行形式化表达。RDF将一条陈述表达为“对象-属性-值”三元组的形式[8]。本文以RDF方式表达水文模型待提取的参数及预处理算法的输入和输出项。例如,“TOPMODEL模型需要以提取方式得到的参数为TWI分布曲线”,以RDF方式表达如下。
<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:hydro="http://www.cas.ac.cn/hydrology#">
……
<rdf:Description rdf:about="TOPMODEL">
<hydro:hasExtractParas>
<rdf:Bag>
<rdf:li resource="TWI Distribution Curve"/>
……
</rdf:Bag>
</hydro:hasExtractParas>
……
</rdf:Description>
……
</rdf:RDF>
其中,Description标签代表一条陈述;about用以标示TOPMODEL这一对象;hasExtractParas用以标示参数须以提取的方式获取;TWI Distribution Curve代表TOPMODEL中待提取参数的名称。
水文模型通常涉及的预处理算法包括基于DEM的水文分析算法 (如填洼、流向计算、地形湿度指数计算)、土地利用相关算法 (如不透水面积比率计算、截留容量计算) 和土壤相关处理算法 (如孔隙度计算、土壤密度计算) 等,将上述预处理算法的输入和输出项以RDF方式进行表达。例如,“TWI算法的输入为坡度 (Slope) 和单位汇水面积 (specific catchment area,SCA),输出为TWI”,以RDF方式表达如下。
<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:hydro="http://www.cas.ac.cn/hydrology#">
……
<rdf:Description rdf:about="TWI algorithm">
<hydro:hasInputs>
<rdf:Bag>
<rdf:li resource="Slope"/>
<rdf:li resource="SCA"/>
</rdf:Bag>
</hydro:hasInputs>
<hydro:hasOutputs>
<rdf:Bag>
<rdf:li resource="TWI"/>
</rdf:Bag>
</hydro:hasOutputs>
</rdf:Description>
……
</rdf:RDF>
3) 参数提取推理机设计
在参数提取知识形式化表达的基础上,设计并研发了可以利用RDF知识构建参数提取概念工作流的推理机。推理机设计的基本思想是将工作流中的各个算法抽象为图论中的节点,而将算法间的数据 (某一算法的输入,也是另一算法的输出) 抽象为连接两节点的边。由于参数提取流程是单向的,因此将工作流的搭建过程抽象为根据算法间输入-输出关系反向搭建有向图的过程。
令G=(V, E),G代表有向图,V代表有向图节点,E代表有向图的边。给定数据栈P、算法栈Q、待补充数据集合B、水文模型Model和现有数据集合D,参数提取的概念工作流搭建步骤如下。
步骤1 在RDF知识库中搜索Model的待提取参数Parai(i=1, …, n;其中n为参数个数),全部入栈P,Model入栈Q;
步骤2 判断栈P是否为空,为空则推理结束;若P不为空,P栈顶元素t出栈,令M为Q栈顶元素,则t为M的输入;
步骤3 判断D中是否有数据与t匹配,如果匹配成功,判断M的所有输入是否得到满足,若满足,则M出栈,回到步骤2。如果匹配失败,则在RDF知识库中搜索输出为t的算法A。如果A存在于知识库中,将<A, t, M>存储于E中,判断M的所有输入是否得到满足,若满足,则M出栈。若V不包含A,则将A添加至V,同时将A入栈Q,同时将A的所有输入输入栈P,回到步骤2。若V包含A,则直接回到步骤2。如果A不存在于知识库中,判断B
中是否有数据与t匹配,如果匹配成功,判断M的所有输入是否得到满足,若满足,则M出栈。如果匹配失败,将t保存至B,同时将t入栈P。回到步骤2。 推理过程结束后得到的有向图G记录了由现有数据提取参数所需的算法集合V及其输入-输出关系E,集合B记录了完成参数提取还需要提供的其他数据,通过对G进行拓扑排序确定预处理算法的执行顺序。
4) 工作流映射和执行
推理机搭建的概念工作流表达了参数提取所需的预处理算法、算法间的输入输出关系及执行顺序。将上述概念工作流映射为可执行工作流[9, 10],便可实现参数智能提取。本文使用Web服务的相关技术实现工作流的执行。首先,将水文模型和预处理算法封装为基于SOAP (Simple Object Access Protocol) 标准的Web服务;然后,将Web服务组合为Web服务链,其中,Web服务链中Web服务间的输入输出关系的执行顺序与概念工作流中算法间的输入输出关系的执行顺序保持一致。本文采用BPEL (Business Process Execution Language)[11]描述Web服务链,并以开源的Apache ODE作为执行引擎执行Web服务链。
-
1) 参数取值范围知识
参数取值范围知识包括需通过率定方式设置的参数及其取值范围。例如,TOPMODEL模型中以率定方式确定的参数有土壤刚达到饱和时的有效下渗速率T0(m2/h)、非饱和区最大蓄水深度Szm(m)、非饱和区水流下渗速率时间参数Td(h)、根系区最大容水量Srmax(m)、植被根系层初始含水量SR0(m)[12]。考虑汇流过程时,还需要地表坡面汇流速率Rv(m/h) 和主河道汇流速率CHv(m/h)。参数取值范围一般可参照已有模型应用中所采取的范围,以TOPMODEL为例,通过对现有文献[12-14]的总结,可得上述参数的大致取值范围 (表 1)。
表 1 TOPMODEL中需率定的参数及其取值范围
Table 1. Parameter Range of TOPMODEL
参数 T0/(m2·h-1) Szm/m Td/h Srmax/m SR0/m Rv/(m·h-1) CHv/(m·h-1) 下限 0.1 0.01 0 0 0 100 100 上限 20 0.05 150 0.1 0.5 10 000 10 000 2) 参数取值范围知识的形式化表达
将以率定方式确定取值的参数名称和参数取值范围同样以RDF三元组的方式进行形式化表达。例如,“TOPMODEL中,土壤刚达到饱和时的有效下渗速率T0参数取值范围通常为0.1~20 m2/h”,以RDF方式表达如下。
<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:hydro="http://www.cas.ac.cn/hydrology#">
……
<rdf:Description rdf:about="T0_TOPMODEL">
<hydro:minValue>0.1</hydro:minValue>
<hydro:maxValue>20</hydro:maxValue>
<hydro:unit>m2/h</hydro:unit>
</rdf:Description>
……
</rdf:RDF>
其中,minValue标签代表T0的取值下限,maxValue标签代表T0的取值上限。
3) 参数范围设置的推理机设计
本文设计并研发了用于实现参数范围自动设置的推理机,该推理机的工作步骤如下。
步骤1 从知识库中搜索水文模型中待率定的参数,对于每个参数Parai (i=1, …, n;其中n为参数个数),执行步骤2、 3;
步骤2 从水文模型的知识库中搜索about标签为Parai的RDF陈述;
步骤3 获取该RDF陈述中的参数范围range,将其存储在哈希表Map<Parai, range>中;
步骤4 将Map传递至参数自动优化算法,由优化算法完成最终的参数优化。
本研究采用SCE_UA算法[15]进行参数自动优化。
-
本文基于上述方法,设计并初步实现了水文智能建模原型系统,采用B/S (Browser/Server) 三层架构模式,由表现层、业务逻辑层和数据访问层构成,如图 2所示。
该原型系统采用了可扩展的架构,只需要将某一水文模型的参数提取知识和参数范围知识进行形式化表达,并存储于知识库中,水文智能建模原型系统便可支持该水文模型参数设置的智能化。目前,本系统支持两参数月水量平衡模型、SMAR (soil moisture accounting and routing) 模型、新安江模型、TOPMODEL等4个模型的参数智能化设置。
-
以福建汀江的观音桥小流域作为研究区,该流域面积374 km2,位于亚热带,降水充沛,属于湿润气候。数据包括2006~2009年共4 a实测日尺度降雨、蒸发皿观测值和径流资料及90 m的SRTM DEM数据。采用湿润和半湿润地区常用的TOPMODEL来进行降雨径流模拟。
以TOPMODEL参数提取和率定为例,说明知识驱动下水文建模参数智能化设置方法的可行性。
参数提取方面,推理机从TWI分布曲线出发,逐步向上反向推理,直至发现DEM数据可用为止。这一过程中推理机自动搭建和执行工作流,建模者只需指定DEM数据路径,省去了填洼、坡度计算、流向计算、单位汇水面积计算、TWI计算和分布曲线计算等预处理的大量繁琐操作;参数率定方面,由推理机从知识库中搜索T0、Szm、Td、Srmax、SR0、Rv和CHv的取值范围 (表 1),将取值范围传递至SCE_UA方法进行参数自动率定,生成优化参数 (图 3),整个过程为自动化实现,用户只需指定率定期即可。在本应用案例中,TOPMODEL在率定期的效率系数为0.84,取得了较高的模拟精度。
图 3 参数智能化设置界面——以TOPMODEL为例
Figure 3. Interface of Intelligent Parameter Setting (Taking TOPMODEL as an Example)
从操作步骤和学习成本两个方面,对参数智能设置方法与人工设置方法进行了对比分析。
1) 参数提取操作步骤的定量比较。以利用ArcGIS和Excel软件人工提取TWI分布曲线参数为例,需要在ArcGIS中分别进行填洼、流向计算、坡度计算,再使用栅格计算器求取单位汇水面积、TWI。最后,使用Excel的统计功能求取TWI的频率分布,即TWI分布曲线。在此过程中,涉及两个软件工具和6个操作步骤,且需要用户事先掌握参数提取的流程知识。而使用本文中的方法,用户指定DEM数据的路径后,即可由系统自动搭建和执行工作流求取TWI分布曲线,涉及1个软件工具和1个操作步骤,不需要用户掌握参数提取流程知识。可见,本文提出的参数智能设置方法简化了操作步骤。
2) 参数取值范围确定学习成本的定性对比。对于手动指定参数取值范围的方式,用户需要花费一定的时间和精力去阅读专业文献,才能确定参数的取值范围。使用本文的方法,参数取值范围提前以形式化的方式存储于知识库中,降低了用户的学习成本,节约了用户建模的时间和精力。
-
本文针对现有水文建模工具易用性较差的问题,将知识驱动的方法应用于参数设置的智能化当中,将水文模型参数设置中所涉及的知识分为参数提取知识和取值范围知识两类,分别以RDF的方式进行形式化表达和推理应用,实现了参数的智能化设置,并结合Web Service、工作流和参数自动率定等技术初步实现了水文智能建模系统原型,并通过TOPMODEL应用实例表明,基于知识驱动的建模方式可使建模者以简易的方式完成水文模型参数设置,有效地降低了建模难度。
下一步的研究包括集成其他常用的水文模型/预处理算法,并在现有的RDF知识表达方式的基础上加入对语义和本体知识的考虑,以丰富智能化建模系统的模型库和知识库。
A Knowledge-driven Method for Intelligent Setting of Parameters in Hydrological Modeling
-
摘要: 水文模型的参数设置涉及专业领域的知识和繁琐的操作步骤,是水文建模面临的一大难题,在一定程度上限制了模型的应用和推广。基于知识驱动的方法,将水文模型参数设置知识分为参数提取知识和取值范围知识两类,分别对其进行形式化表达和自动推理,初步实现了水文模型参数智能化设置;结合Web Service、工作流和参数自动率定等技术,研发了水文智能建模原型系统;最后,以TOPMODEL模型的参数设置为例,对知识驱动方法进行了验证。结果表明,知识驱动的方法能在保证模拟精度的前提下有效简化水文模型的参数设置流程,降低水文建模难度。Abstract: Setting parameters for hydrological models requires not only specialized knowledge but also tedious operation steps. This is a major difficulty in hydrological modeling that largely constrains the ease of use of hydrological models. Using a knowledge-driven method, the knowledge on parameter setting was divided into the knowledge on parameter extraction and the knowledge on parameter value range. The above knowledge was formalized and inference engines were designed for setting parameters in hydrological modeling intelligently. A prototype system for intelligent hydrological modeling was implemented using web service, workflow, and automatic calibration of parameters. A case study of automatic intelligent parameter setting was conducted for TOPMODEL in a real watershed. The results showed that the knowledge-driven method was able to conduct parameter settings automatically and achieve satisfying modeling results. Therefore, the proposed knowledge-driven method and the intelligent system have great potential to simplify hydrological modeling processes.
-
Key words:
- hydrological model /
- parameter setting /
- knowledge-driven /
- knowledge formalization /
- knowledge inference /
- TOPMODEL
-
表 1 TOPMODEL中需率定的参数及其取值范围
Table 1. Parameter Range of TOPMODEL
参数 T0/(m2·h-1) Szm/m Td/h Srmax/m SR0/m Rv/(m·h-1) CHv/(m·h-1) 下限 0.1 0.01 0 0 0 100 100 上限 20 0.05 150 0.1 0.5 10 000 10 000 -
[1] 徐宗学, 程磊. 分布式水文模型研究与应用进展[J]. 水利学报, 2010, 41(9):1009-1017 http://www.cnki.com.cn/Article/CJFDTOTAL-SLXB201009002.htm Xu Zongxue, Cheng Lei. Progress on Studies and Applications of the Distributed Hydrological Models[J]. Journal of Hydraulic Engineering, 2010, 41(9):1009-1017 http://www.cnki.com.cn/Article/CJFDTOTAL-SLXB201009002.htm [2] 徐宗学.水文模型[M]. 北京:科学出版社, 2009 Xu Zongxue. Hydrological Models[M]. Beijing:Science Press, 2009 [3] 江净超, 朱阿兴, 秦承志, 等. 分布式水文模型软件系统研究综述[J]. 地理科学进展, 2014, 33(8):1090-1100 http://www.cnki.com.cn/Article/CJFDTOTAL-DLKJ201408009.htm Jiang Jingchao, Zhu Axing, Qin Chengzhi, et al. Review on Distributed Hydrological Modelling Software Systems[J]. Progress in Geography, 2014, 33(8):1090-1100 http://www.cnki.com.cn/Article/CJFDTOTAL-DLKJ201408009.htm [4] Arnold T R. Procedural Knowledge for Integrated Modelling:Towards the Modelling Playground[J]. Environmental Modelling & Software, 2013, 39:135-148 [5] 朱庆, 杨晓霞, 李海峰. 基于语义匹配的遥感信息处理服务组合方法[J]. 武汉大学学报·信息科学版, 2010, 35(4):384-387 http://ch.whu.edu.cn/CN/abstract/abstract914.shtml Zhu Qing, Yang Xiaoxia, Li Haifeng. Remotely Sensed Information Processing Service Composition Based on Semantic Matching[J]. Geomatics and Information Science of Wuhan University, 2010, 35(4):384-387 http://ch.whu.edu.cn/CN/abstract/abstract914.shtml [6] 龚健雅, 耿晶, 吴华意. 地理空间知识服务概论[J]. 武汉大学学报·信息科学版, 2014, 39(8):883-890 http://ch.whu.edu.cn/CN/abstract/abstract3038.shtml Gong Jianya, Geng Jing, Wu Huayi. Geospatial Knowledge Service:A Review[J]. Geomatics and Information Science of Wuhan University, 2014, 39(8):883-890 http://ch.whu.edu.cn/CN/abstract/abstract3038.shtml [7] Qin C Z, Jiang J, Zhan L, et al. A Browser/Server-based Prototype of Heuristic Modelling Environment for Digital Terrain Analysis[C]. Geomorphometry'2013, Nanjing, 2013 [8] Cyganiak R, Wood D, Lanthaler M. RDF 1.1 Concepts and Abstract Syntax[OL]. http://www.w3.org/TR/2014/REC-rdf11-concepts-20140225/,2014 [9] 贾文珏, 李斌, 龚健雅. 基于工作流技术的动态GIS服务链研究[J]. 武汉大学学报·信息科学版, 2005, 30(11):982-985 http://ch.whu.edu.cn/CN/abstract/abstract2318.shtml Jia Wenjue, Li Bin, Gong Jianya. Research on Dynamic GIS Chain Based on Workflow Technology[J]. Geomatics and Information Science of Wuhan University, 2005, 30(11):982-985 http://ch.whu.edu.cn/CN/abstract/abstract2318.shtml [10] 罗安, 王艳东,龚健雅. 顾及上下文的空间信息服务组合语义匹配方法[J]. 武汉大学学报·信息科学版, 2011, 36(3):368-372 http://ch.whu.edu.cn/CN/abstract/abstract485.shtml Luo An, Wang Yandong, Gong Jianya. A Semantic Matching Method for Geospatial Information Service Composition Based on Context[J]. Geomatics and Information Science of Wuhan University, 2011, 36(3):368-372 http://ch.whu.edu.cn/CN/abstract/abstract485.shtml [11] Yu G E, Zhao P, Di L, et al. BPEL Power-A BPEL Execution Engine for Geospatial Web Services[J]. Computer & Geosciences, 2012, 47:87-101 [12] Beven K. TOPMODEL:A Critique[J]. Hydrological Processes, 1997, 11(9):1069-1085 doi: 10.1002/(ISSN)1099-1085 [13] Kinner D A, Stallard R F. Identifying Storm Flow Pathways in a Rainforest Catchment Using Hydrological and Geochemical Modeling[J]. Hydrological Processes, 2004, 18 (15):2851-2875 doi: 10.1002/(ISSN)1099-1085 [14] Freer J E, McMillan H, McDonnell J J, et al. Constraining Dynamic TOPMODEL Responses for Imprecise Water Table Information Using Fuzzy Rule Based Performance Measures[J]. Journal of Hydrology, 2004, 291(3-4):254-277 [15] Duan Q Y, Gupta V K, Sorooshian S. Shuffled Complex Evolution Approach for Effective and Efficient Global Minimization[J]. Journal of Optimization Theory and Applications, 1993, 76(3):501-521 doi: 10.1007/BF00939380 -