-
地图综合一直是地图制作中的重要环节,是地图信息能够得以正确表达的关键[1]。湖泊是地图中水系要素的重要组成部分之一[2]。在中国水网密布的平原地区,湖泊成千上万,面积和容量大小悬殊较大。整体上看湖泊分布不均,大多以湖群聚集的形式分布,且通过河流互相连接。对制图员来说,制图综合过程中对平原地区湖泊群的选取难度较大,且耗时较长。因此如何在不同的目标比例尺下合理地对平原地区湖泊群自动选取是地图综合的研究重点和难点之一,本文研究重点也围绕平原地区湖泊群展开。
目前,针对湖泊要素的自动选取研究相对较少。王桥等采用分形分析法建立了方根规律的分形扩展模型,利用分数维与其分布特征建立联系,并给出了湖泊群自动选取的实例[3],而该研究偏重于选取多少,对具体选取哪些目标则研究较少。黄琦将密集小湖泊群转化为点群,通过最短距离法聚类后使用凸壳法进行结构化,从而达到选取的目的[4];郭沛沛对离散湖泊以面积或其他综合指标值来设定阈值进行选取,而对聚集的湖泊群则视作点群对象进行选取[5],但二者都未明确界定湖泊离散或聚集的划分标准。可以看出,已有成果主要是将湖泊选取视作点群综合问题来进行研究并使用了不同的点群综合算法[6-11],这些研究成果有力地推动了自动综合的发展,但对以上方法进一步分析发现存在以下几个问题:①对分布不均的湖泊群采用整体选取的形式,而不是按照分布密度差异划分区域分别进行选取,无法很好地体现出湖泊群的密度对比;②将属性各异的面状湖泊转化为属性一致或是赋予一定的等级值加以区分的点要素,一定程度舍弃了湖泊自身的形态特征和属性信息,选取结果有时不能很好地反映出真实情况;③顾及与其他地图要素(特别是河流要素)的关联关系对湖泊选取的影响的研究还相对较少;④难以用定量的方式描述湖泊的重要性,未对湖泊进行重要性的综合评价作为选取依据。
为了克服上述问题,本文通过对制图专家人工选取湖泊过程进行认知分析和模拟,提出一种基于动态多尺度聚类的湖泊选取方法。
HTML
-
王家耀提出,湖泊选取应该遵循的原则是:应选取面积达到选取标准(图上1 mm2)的湖泊,不够标准的小湖按重要程度予以选取。通常着重选取以下重要的小湖泊:具有重要经济价值的小湖,作为河源的小湖,缺水区的淡水湖以及群湖区有利于反映分布特征和密度对比的小湖等[12]。
首先对制图专家手工选取湖泊的过程进行认知行为分析,大致归纳总结为以下几个步骤:
1) 通过视觉感受搜寻并选取面积大于图上1 mm2的湖泊,可以通过遍历湖泊判断面积是否大于阈值来进行模拟。
2) 在众多小湖泊中寻找并选取周围无其他湖泊存在的“孤立湖泊”,将其视作整个湖泊群分布特征的重要保持点,可以通过缓冲区分析和相交关系判断来进行模拟。
3) 根据格式塔邻近性原则和知觉组织的闭合法则等,制图专家自觉地对湖泊群进行“分而选之”,即将整体的大湖泊群根据分布密度差异划分为多个聚合的小湖泊群,并根据小湖泊群的湖泊数量来估算和分配各自的选取数量指标,然后在各个小湖泊群内部依据湖泊面积、与周围河流连接情况、对小湖泊群形态结构的保持作用等属性做出综合的重要性判断和比较,从而执行具体的选取或删除操作,可以通过聚类分析和主成分分析进行模拟。
显然,制图专家对湖泊的人工选取结果有效保持了湖泊群的分布特征和拓扑特征等,为达到相同目的,基于该过程的认知分析,本文模仿人工选取的思路,提出了一种新的湖泊自动选取方法,流程如图 1所示。其具体步骤如下。
1) 面积选取。设定面积阈值为目标比例尺下图上1 mm2(湖泊选取原则规定的面积标准[12])代表的实地面积,遍历所有湖泊,对面积大于阈值的湖泊进行选取。
2) 缓冲区选取。对所有湖泊建立缓冲区,对缓冲区没有相交关系的湖泊进行选取。制图规范一般认为图上3 mm为要素之间合适的间隔距离[12],故缓冲区半径设为目标比例尺下3 mm代表的实地距离,经实验验证该半径对“孤立”湖泊筛选效果最佳,且符合人眼感知。
3) 对除缓冲区选取外的所有湖泊进行动态多尺度聚类,划分为多个小湖泊群。
4) 对不同的小湖泊群采取不同选取策略,其中,对于包含湖泊数量较多的小湖泊群,迭代采用主成分分析法来计算重要性综合评价,排序后删除排名靠后的湖泊,直至满足选取数量指标。
需要说明的是,聚类时不包含通过缓冲区选取的湖泊是因为它们相对孤立,可视作对其他湖泊不产生影响,而通过面积选取的湖泊对周围湖泊的影响明显,因而缓冲区选取和聚类时都必须包含它们。
从上述步骤可以看出,通过模拟制图专家手工作业的认知行为过程和遵循制图规范的参数选择,基于动态多尺度聚类的湖泊选取方法符合制图综合的选取规律。
-
为了克服当前湖泊选取方法整体选取的缺陷,本文模拟制图专家在湖泊选取过程中“分而选之”的聚类行为,提出了湖泊动态多尺度聚类方法,更好地划分出分布密度不同的区域。
-
聚类是指将数据对象分组成为多个类,在同一类中的对象之间具有较高的相似性,而不同类中的对象差别较大。聚类方法大体上可以分成基于划分的方法、基于层次的方法、基于密度的方法以及其他方法[13]。典型算法分别有K-means算法[14]、K-modes算法[15]等。其中,动态聚类法是先将n个要素粗糙地分为若干类,然后用某种最优准则进行迭代调整,直至稳定为止[16]。
聚类结果的好坏受聚类尺度的大小所影响,尺度过小或过大都无法准确划分出不同分布密度的区域。研究制图专家的人工聚类行为发现,湖泊群的聚类尺度与比例尺和湖泊密度有关。一方面,在不同比例尺下,同一湖泊群的聚类尺度不同,大比例尺下聚类更加分散,聚类数量较多;小比例尺下则聚类相对集中,聚类数量较少。另一方面,湖泊密度对聚类的尺度也有影响,密集区域聚类的尺度相对较小,而稀疏区域的聚类尺度则较大。
一般来说,对面要素的聚类是通过降维提取其中心点来替代完成。但是,作为聚类对象的面状湖泊面积大小不一,其面状形态对聚类的影响无法忽视。比如,对于两个实地距离较近的大面积湖泊,本应聚为一类,但其中心点之间的距离较远,若使用中心点来聚类,则无法聚为一类。
因此,本文认为聚类时应顾及大面积湖泊面状形态的影响,忽略小面积湖泊的形态。按照制图规范中区分湖泊面积大小的分类标准[15],对聚类时的湖泊距离定义如下:若湖泊A和湖泊B的图上面积均大于1 mm2,A、B的距离为面最短距离;若湖泊A和湖泊B的图上面积均小于1 mm2,A、B的距离为其中心点的点距离;若湖泊A的图上面积小于1 mm2,湖泊B的图上面积大于1 mm2,A、B的距离为面A的中心点到面B的最短距离。
由于对湖泊群的聚类分区事先无法确定分类的数量,且普通的动态聚类不能很好适用于湖泊群聚类对不同比例尺(纵向)和不同区域分布密度(横向)的多尺度需求。本文提出一种新的动态多尺度聚类方法,顾及综合目标比例尺、湖泊分布密度差异、湖泊面状形态对聚类的影响,以更好地识别并划分出不同分布密度的区域。
该方法的基本思想是:根据不同目标比例尺由图上距离阈值d设置实地距离阈值D对应于纵向多尺度聚类需求,以类的平均湖泊距离(下文简称类平均距离)来识别分布密度差异对应于横向多尺度聚类需求。每次聚类以分布密度最大的湖泊作为起始点,由中心向四周动态扩张,依次判断该类的最近湖泊的距离是否小于距离阈值D且小于类平均距离的n倍,若是,则将最近湖泊聚为一类,并重新计算类平均湖泊距离;若不是,则结束此次聚类,开始下次聚类。流程见图 2,其具体步骤如下。
1) 提取湖泊中心点并建立缓冲区。
2) 计算各缓冲区内的中心点数量,作为分布密度的量化指标值,以分布密度最大的湖泊作为聚类起始点,并新建聚类图层。
3) 通过计算聚类图层所有湖泊与原湖泊群图层所有湖泊的距离得到聚类的最近湖泊,若该类离最近湖泊的距离小于根据目标比例尺设定的距离阈值D,且小于类平均距离的n倍(聚类起始点时不判断该条件),则将原湖泊群图层中的最近湖泊移入至该聚类层,并重新计算该类的类平均距离;否则该类聚类结束,返回2)。
-
为验证多尺度动态聚类的有效性,对某湖泊群进行聚类实验,图 3为实验结果,聚为一类的小湖泊群用相同颜色表示。经实验验证,d取值4~5 mm,n取值2~2.5时较为符合人眼视觉的聚类判断,故本文将d值取5 mm,n值取2.5。
-
对湖泊群完成聚类后,如何对通过聚类划分而成的各小湖泊群类进行选取是需要进一步考虑的问题。首先,根据类中湖泊的数量可将小湖泊群类分为3种:①只有一个湖泊的单点类;②含有两个湖泊的双点类;③含有3个湖泊及以上的多点类。对不同的类,本文采用不同的选取策略,并且根据开方根规律按比例分配选取数量指标。
1) 对于单点类,同样视作为湖泊群分布特征的重要保持点,全部选取;
2) 对于双点类,判断两湖泊之间的最短面距离,若大于目标比例尺下3 mm代表的实地距离,则全部选取;否则按湖泊面积和与河流连接数各占0.5的权重计算重要性,删除其中相对不重要的一个湖泊;
3) 对于多点类,又分为两种情况:一是类中湖泊数量n相对较少(n≤7),因为湖泊数量n≤7时,样本数量小于变量数量,无法进行主成分分析(详见§3),且由于湖泊群数量较少,形态结构较简单,此时可以不考虑湖泊群的分布特征和拓扑特征,而是按湖泊面积和与河流连接数各占0.5的权重计算重要性排序选取;二是类中湖泊数量较多(n>7),则迭代使用主成分分析法计算湖泊重要性综合评价,为避免连续删除相邻湖泊而影响湖泊群分布特征的保持,每轮迭代过程只删除重要性排序后30%且互不干扰的湖泊(互不干扰指没有相同的邻接湖泊),直至满足选取数量指标。
2.1. 动态多尺度聚类的概念
2.2. 动态多尺度聚类实验
2.3. 各小湖泊群类的选取策略
-
为了克服当前湖泊选取方法无法科学定量地计算出湖泊重要性综合评价的缺陷,本文模拟制图专家在湖泊选取过程中对重要性的综合判断过程,提出了基于主成分分析法的湖泊重要性综合评价方法。
-
主成分分析法是通过少数几个主成分来揭示多个变量间内部结构的多元统计方法,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。
总体上来说,主成分分析就是用损失少量的信息来换取减少p-m个变量的方法。
-
湖泊的重要性首先通过湖泊的面积直接反映,其次与河流连接数量可以反映湖泊与其他地物要素的空间关系。另外,参考点群综合算法中常用的Voronoi面积、Voronoi邻居等来量化描述拓扑特征及分布特征[17-18],本文则采用约束Delaunay三角网对湖泊间的空白区域提取骨架线,通过构建湖泊之间空白区域的骨架线网眼(如图 4(a)所示),将骨架线网眼与湖泊一一对应起来,将Voronoi面积、Voronoi邻居等因子替换为骨架线网眼面积、骨架线网眼邻居等。因为Voronoi图是基于湖泊面的中心点来构建泰森多边形(如图 4(b)所示),此时提取的拓扑信息无法有效顾及湖泊的面积和形态,湖泊面(黑色)与泰森多边形(灰色)发生冲突(如图 4(c)所示),相反骨架线网眼面的构建则顾及了湖泊面的形态。二者对比效果见图 4。
故本文综合考虑湖泊的属性特征、拓扑特征及分布特征,选用以下6个湖泊重要性因子。
1) 湖泊面积,是最直观明显的属性指标,是制图员选取过程的重要影响因素,面积较大的湖泊选取的可能性越大。
2) 河流连接数,即湖泊与河流要素的连接情况。一般来说,与河流连接的数量越多,湖泊的位置特征越重要,越可能被选取。
3) 影响域面积。定义影响域为包含该湖泊的骨架线网眼面,表示湖泊对周围空白区域的影响范围,即占有的分布空间。影响域越大,代表湖泊影响力越强,选取可能性越大。需要说明的是,本文认为小湖泊群的“边缘”湖泊对湖泊群分布特征的保持作用强于“内部”湖泊,故构建骨架线网眼时向外适度扩张边界,增大边缘湖泊的影响域面积,以增加其被选取的可能性。
4) 密度。本文将密度指标定义为:
式中,SArea表示湖泊面积;SMesh表示湖泊对应骨架线网眼面积。F值越大,表示单位湖泊面积占有的空白区域越大,即湖泊所处区域的分布密度相对较小,选取可能性越大。由于边界向外扩张,“边缘湖泊”的SMesh相对较大,F值也较大,表示其分布密度较小,符合其处于小湖泊群边缘的实际情况。
5) 中心度。通过构建空白区域骨架线网眼,将湖泊的邻近关系转换为与之对应的骨架线网眼的邻近关系,利用骨架线网眼的相接拓扑关系,得出湖泊的中心度,即邻接湖泊的数量,其计算公式为:
式中,δij表示湖泊j是否与湖泊i具有邻接关系,如果具有邻接关系,则δij=1,否则为0。湖泊的中心度越大,表示对邻近湖泊的影响力越强,其重要性也就越强。
6) 平均邻近距离,指湖泊中心点到其骨架线网眼的所有邻接网眼所包含湖泊中心点之间距离的平均值,能定量地反映湖泊的邻近关系。平均邻近距离越大,选取可能性越大。
对以上重要性因子进行主成分分析得出湖泊重要性综合评价,作为小湖泊的取舍依据。
3.1. 主成分分析法
3.2. 湖泊重要性因子
-
以某地区的1:100万水系数据为例,如图 5所示,综合的目标比例尺设置为1:400万,对本文选取方法进行实验。
1) 设置面积阈值为16 km2(1:400万下1 mm2代表的实地面积),共有29个湖泊大于阈值,对这些湖泊全部选取。
2) 对湖泊建缓冲区,半径设置为12 km(1:400万下3 mm代表的实地距离),如图 6所示,有1个湖泊(圆圈内)无缓冲区相交情况,对此湖泊进行选取,由此可以保持湖泊群东南方位较为明显的分布特征。
3) 进行动态多尺度聚类,距离阈值设置为20 km(1:400万下5 mm代表的实地距离)。得到的结果聚为5类(见图 7),其中双点类2个,多点类3个,类平均距离分别为4 514.4、19 582.2、10 456.5、4 736.4、10 412.4 m。可以看出,聚类结果符合人眼的视觉聚类感受,且各类的类平均距离的不同能有效反映出各小湖泊群区域的分布密度差异。
4) 对各小湖泊群类根据开方根模型计算,选取数量,并分别采用§2.3所述的选取策略。
对双点类的类1、类2进行湖泊距离计算,判断是否大于阈值(1:400万比例尺下3 mm代表的实地距离),类1中两湖泊距离小于阈值,故以面积和河流连接数各占0.5的权重进行重要性计算,删除其中一个湖泊;类2的两湖泊距离大于阈值,故对两个湖泊全部选取。对多点类的类3,其包含湖泊数量为4,
以面积和河流连接数各占0.5的权重进行重要性计算,选取重要性排名前2的湖泊。
对多点类的类4、类5计算如§3.2所述的6项重要性因子,迭代使用主成分分析得出湖泊重要性综合评价,如表 1所示,每轮迭代过程仅删除排序后30%且互不干扰的湖泊,直至湖泊数量达到选取数量指标。
ID 湖泊面积/km2 河流连接数 影响域面积/km2 密度 中心度 平均邻近距离/m Z(重要性综合评价) 1 2.043 1 104.583 0.980 4 10 174.6 0.655 2 2.555 1 12.730 0.799 2 6 370.2 -0.763 3 2.944 4 90.434 0.967 7 10 615.4 0.929 4 3.322 1 28.064 0.882 5 7 861.5 -0.067 5 3.363 4 24.495 0.863 3 6 221.1 -0.348 Table 1. Lake Importance Principal Component Analysis
经过7轮迭代,类4完成选取。经过21轮迭代,类5完成选取。其选取效果如图 8所示。
综合各类的选取结果,可以得到最终选取结果如图 9(b)所示。为证明本实验方法的合理性,本文采用基于面积的选取方法与本文方法进行对比,如图 9(a)所示(红色圆圈表示二者选取结果的不同之处,紫色方框表示局部放大区域,局部图中红色表示选取,灰色表示删除)。通过对比可以得出:
1) 本文选取方法中,在面积相差不大的情况下,河流连接数越多,重要性综合评价越高(见表 1),因而选取结果较好地保留了一些位置重要(连接河流数较多)但面积相对较小的湖泊,删除了一些面积相对较大,但是位置不重要的湖泊,如图 9(g)所示。相反,基于面积的选取方法仅单一地考虑了面积属性,选取时未顾及与河流要素的关联关系。这是因为本文方法通过主成分分析法计算出湖泊的重要性综合评价,综合考虑了面积和与河流连接关系等重要性因子。
2) 本文选取方法结果较好地保证了湖泊群选取前后的分布特征保持,包括整体的形态结构相似性和局部不同区域的分布密度差异性。在湖泊分布密度较为密集的区域,取舍的程度相对较大,但仍保持了该区域相对密集分布的特点,如图 9(f)所示;在湖泊密度较为稀疏的区域,则取舍的程度相对较小,但该区域选取结果仍显得分布相对稀疏,如图 9(d)所示。相反,基于面积的选取结果则分布很不均匀,某些地区的湖泊分布过于密集,如图 9(e)所示,而有些地区则过于稀疏,如图 9(c)所示,对湖泊群分布特征保持较差。这是因为本文选取方法通过缓冲区选取“孤立”湖泊保持了湖泊群较为明显的特定位置的分布特征;通过动态多尺度聚类对不同分布密度的区域进行识别,并划分为各个小湖泊群,保持了整体的分布特征;在各个小湖泊群的内部,顾及反映分布特征和拓扑特征的重要性因子进行迭代选取而保持了局部区域内的分布特征。
经分析总结,本文湖泊选取方法的特点如下:
1) 由于采取了动态多尺度聚类方法,将整个湖泊群按照湖泊分布密度的不同划分为众多的小湖泊群,再进而局部内分类采用不同的选取策略,从整体到局部逐级地保持了湖泊群形态结构选取前后的一致性,加上“孤立”湖泊的选取,从而使湖泊群的分布特征得到了很好的保持。
2) 由于采用了主成分分析法对湖泊重要性进行综合评价,考虑了能充分反映属性特征、拓扑特征和分布特征的重要性因子,使得重要性综合评价更为全面、科学,因而选取结果能较好地反映出真实情况。
3) 由于本文选取方法基于手工作业中的认知行为分析,较好地模仿了制图专家的选取行为和过程,遵循了湖泊的选取原则,使本文方法的选取结果更接近于制图专家人工选取的结果。
综上所述,本文选取方法遵循了制图专家手工作业流程和湖泊选取原则,全面考虑了湖泊重要性因子进行综合评价,对湖泊群选取前后的形态结构和密度对比保持较为有效。
-
目前大多数湖泊选取方法难以兼顾湖泊的属性特征、拓扑特征和分布特征,本文通过对专家选取过程的认知分析和模仿,提出了一种基于动态多尺度聚类的湖泊选取方法,首先通过面积选取步骤选取出大面积湖泊,然后通过缓冲区选取步骤选取出有助于保持形态结构的孤立湖泊,最后通过动态多尺度聚类划分不同湖泊分布密度的区域和主成分分析法科学定量计算湖泊重要性综合评价,二者结合使用对湖泊群“分而选之”。实验表明,该方法对水网和湖泊密布的平原地区的湖泊群选取效果良好,有效保持了整体湖泊群选取前后相似的形态结构和密度对比。本文提出的湖泊选取方法模拟人工选取的认知过程,也为湖泊选取和其他类似要素的自动综合提供了新思路。但是本文方法尚未考虑到高原地区相互独立、没有相通的湖泊分布特点,以及高原地形对湖泊选取的影响,有待于做进一步的研究。