多级空间特征的平衡测度学习遥感图像域适应分类

董燕妮; 秦学翔; 张玉香; 杜博

doi:10.13203/j.whugis20240212

多级空间特征的平衡测度学习遥感图像域适应分类

董燕妮^1,2,
秦学翔^1,2,
张玉香³,
杜博^4, ,

1. 湖北珞珈实验室, 湖北武汉 430079;
2. 武汉大学资源与环境科学学院, 湖北武汉 430079;
3. 中国地质大学(武汉) 地球物理与空间信息学院, 湖北武汉 430074;
4. 武汉大学计算机学院, 湖北武汉 430079

基金项目:

湖北珞珈实验室开放基金（220100058），国家自然科学基金（62222116， 62171417）。

详细信息

作者简介:
董燕妮，博士，教授，研究方向为遥感图像智能解译。 dongyanni@whu.edu.cn

通讯作者:
杜博，博士，教授，研究方向人工智能、数据挖掘、模式识别和计算机视觉和图像处理。 dubo@whu.edu.cn

中图分类号: P237
计量
- 文章访问数: 101
- HTML全文浏览量: 3
- PDF下载量: 16
出版历程
- 收稿日期: 2024-06-09
- 网络出版日期: 2024-06-23

Balanced Metric Learning in Multilevel Spatial Features for Domain Adaptation in Remote Sensing Image Classification

1. Hubei Luojia Laboratory, Wuhan 430079, China;
2. School of Resource and Environmental Sciences, Wuhan University, Wuhan 430079, China;
3. School of Geophysics and Geomatics, China University of Geosciences, Wuhan 430074, China;
4. School of Computer Science, Wuhan University, Wuhan 430079, China

摘要

摘要: 遥感图像域适应分类通常以光谱特征或简单的空间特征作为数据特征，通过对齐域间的特征分布来标注缺乏标签样本的域。域适应方法忽略了遥感图像更深层的空间特征，导致对空间局部信息的发掘不够；同时，域适应方法很少考虑类别非均衡的问题，导致小类样本的重要性被忽略。针对上述问题，提出了一种多级空间特征的平衡测度学习遥感图像域适应分类方法。首先，通过迭代均值滤波器提取遥感图像更深层的空间特征；然后，构建测度学习来对齐边缘分布，最小化类内距离和类间散度；最后，根据类的先验概率构建自适应权重，最大化平衡类间距离，以缓解类别不平衡的问题。所提方法在Worldview-2 数据集和 Pavia 数据集上设计了 4 个任务来评估有效性，使用遥感图像分类任务中常用的总体精度、 Kappa 系数、可视化结果和时间成本作为评价指标，通过实验分析不同参数对分类结果的影响以及各个组成部分对分类结果的影响。相较于次优的算法，所提方法的总体准确率提高了 1.64%~9.18%， Kappa 系数提高了 0.0231~0.1717。实验结果表明，所提方法不仅通过多级空间特征加强了局部特征的提取和有效利用，还有效缓解了类不平衡问题，使分类器取得了更好的预测效果。
- 遥感图像分类 /
- 域适应 /
- 测度学习 /
- 类不平衡 /
- 空间特征 /
- 多级空间特征
Abstract: Objective: Domain adaptation classification of remote sensing images usually takes spectral features or simple spatial features as data features, and labels domains lacking labeled samples by aligning feature distributions among domains. The domain adaptation method ignores the deeper spatial features of remote sensing images, resulting in insufficient exploitation of spatially localized information. At the same time, the domain adaptation method seldom takes into account the problem of class imbalance, which leads to the importance of the small class of samples being ignored. Methods: To address the above problems, balanced metric learning in multilevel spatial features for domain adaptation in remote sensing image classification is proposed . First, deeper spatial features of remote sensing images are extracted by an iterative mean filter. Then, metric learning is constructed to align the marginal distributions and minimize the intraclass distance and interclass scatter. Finally, adaptive weights are constructed based on the prior probability of the classes to maximize the balanced interclass distances to alleviate the problem of class imbalance. Results: The proposed method first designed four tasks on the Worldview-2 dataset and Pavia dataset to evaluate the effectiveness. Then, the overall accuracy, kappa coefficient, visualization results, and time cost, which are commonly used in remote sensing image classification tasks, are used as the evaluation indicators. Secondly, a series of experiments are carried out to analyze the effects of different parameters on the classification results. Lastly, the individual components on the classification results. Compared with the suboptimal algorithm, the proposed method improves the overall accuracy by 1.64% to 9.18%, and the kappa coefficient by 0.0231 to 0.1717. Conclusions: The experimental results show that the proposed method not only enhances the extraction and effective utilization of local features through multilevel spatial features but also alleviates the problem of class imbalance effectively so that the classifier achieves a better prediction result.
- remote sensing image classification /
- domain adaptation /
- metric learning /
- class imbalance /
- spatial features /
- multilevel spatial features

HTML全文

作为虚拟地理环境（virtual geographic environment, VGE）的重要组成部分^[1-2]，三维建筑物模型在城市规划、三维导航、灾害管理、水利水电等领域都有着广泛的应用^[3-8]。与其他三维模型相比，三维建筑物模型通常具有更大的数据量和更复杂的几何结构特征^[9-10]。虽然近年来计算机硬件性能飞速提升，但大规模三维场景的实时流畅渲染仍面临着巨大挑战^[11]。如何在保证建筑物模型外观视觉效果的前提下对模型进行简化，在可视化时根据视距选择合适的细节层次模型（level of detail, LoD）加载^[12]，减轻计算机的渲染压力，仍然是亟待解决的问题^[13]。

流形网格中图元拓扑关系简单，不存在悬挂点、悬挂边和悬挂面。计算机图形学领域提出的通用三维模型简化方法能在流形网格模型上取得较好的简化结果。但三维建筑物模型中存在大量非流形结构（如多个建筑物部件粘合在一起共享一条边），且具有严格的几何约束（如模型要素之间的平行、垂直、共面等特征约束）^[14-16]和复杂的语义信息（如不同要素的属性、关系等）^[17]，将通用简化方法直接应用到三维建筑物模型上时，可能会破坏模型固有的几何约束，从而严重破坏建筑物的外观^[18]。如果简化过程中未考虑建筑物语义信息，可能造成简化前后模型语义信息不一致。本文归纳了三维建筑物模型简化研究的进展情况，讨论了三维建筑物模型简化研究的潜在方向。

1 通用三维模型简化方法

通用三维模型简化方法通过对模型中的点、线、面等几何图元进行删除、合并等操作减少模型数据量，根据操作方式和图元对象的不同可分为顶点删除、边折叠、三角形折叠、顶点聚类4种。顶点删除算法和三角形折叠算法对建筑物简化效果较差，故只介绍边折叠算法和顶点聚类算法。

1.1   边折叠算法

边折叠算法由Hoppe等^[19]提出，其原理是将构成一条边的两个顶点合并成一个顶点，从而删除该条边相邻的两个三角形。边折叠的逆操作为顶点分裂，即将折叠后的顶点还原为原来的边。如图 1所示，折叠边(v_u，v_t)到v_s，将顶点v_u和v_t移动到v_s处，并将退化的三角形f_l和f_r删除，还原时根据边折叠记录将三角形f_l和f_r重新恢复。基于边折叠和顶点分裂，Hoppe又提出了渐进网格模型^[20]及基于视点的渐进网格算法^[21]，现已被广泛应用于地形等流形网格的连续LoD模型中。H边折叠算法在选择要折叠哪条边时需构建一个全局的能量函数来度量边折叠误差，效率很低。Garland等^[22]提出了一种基于二次误差度量（quadric error metric, QEM）的简化算法，大幅提高了简化效率，成为目前使用最广泛的网格简化方法。后人在QEM算法的基础上考虑互信息、曲率等因素，提出了多种新的误差函数来提高QEM算法的简化质量^[23-27]。

图 1 边折叠和顶点分裂示意图

Figure 1. Sketch Map of Edge Collapse and Vertex Split

下载: 全尺寸图片幻灯片

1.2   顶点聚类算法

顶点聚类算法首先对网格进行空间聚类，再通过合并同一聚类中的顶点来简化网格。简化过程中，每个聚类中的顶点被聚类中权重最大的代表顶点代替，再由代表顶点拓扑重构形成简化的模型，具体过程如图 2所示。该方法由Rossignac等^[28]提出，但此方法对细节分布不均匀的模型进行了均匀简化，可能破坏顶点间拓扑关系，造成模型的局部过度简化。针对此，Low和Tan^[29]提出了单元浮动聚类算法，有效解决了此问题；Luebke等^[30]提出的八叉树自适应划分的方式划分空间取得了更好的效果。

图 2 顶点聚类示意图

Figure 2. Sketch Map of Vertex Clustering

下载: 全尺寸图片幻灯片

当简化率较高时，由于没有考虑建筑物的几何约束和拓扑关系，上述两种方法在大面积图元的删除或合并时会造成建筑物坍塌和建筑物构件间拓扑关系破坏，严重影响模型外观，如图 3所示。如使用边折叠算法，在简化率较高时会出现图 3（b）结果。同时，由于模型在图元层面大多未携带语义信息，简化后模型往往和原模型语义不一致（如两种不同材质属性的要素合并后，新要素和原模型材质信息不一致）。这严重影响可视化效果和三维分析的准确性，极大限制了三维建筑物的应用。

图 3 边折叠简化致模型几何约束和拓扑关系破坏

Figure 3. Simplification Using Edge Collapses Algorithm Leads to Destruction of Model Geometry Constraints and Topological Relationship

下载: 全尺寸图片幻灯片

2 三维建筑物模型简化方法

2.1   面向几何特征的简化

2.1.1   基于投影特征的简化

该方法的基本思想是先将三维模型投影到二维平面得到模型的投影轮廓线，使用二维制图综合技术对轮廓线简化综合后，再将简化综合结果恢复为三维模型。最常见的方法是将建筑物自上而下投影得到建筑物基底，对基底简化后拉伸并叠加屋顶得到简化结果。研究初期主要关注单栋建筑物墙体轮廓的简化，常见做法是在基底各边平行垂直等几何约束的限制下，移除基底中较短的边以消除墙体中小的凸起或凹陷^[31-32]。由于简化过程中没有考虑屋顶，基底拉伸后可能出现墙体和屋顶不匹配的情况，可通过引入屋顶与基底的相交测试来修正模型解决^[33]，但仅限于屋顶结构简单的建筑物。除自上而下投影外，有学者参考计算机自动制图领域的简化方法，将模型同时投影到3个平面上得到模型的三视图，对三视图简化综合后再恢复模型^[34]，但建筑物表面通常有多层复杂装饰结构，投影后简化综合难度较大。

基于投影特征的简化方法多用在大规模城市场景建筑群的可视化中。通过不断综合建筑物基底，并对综合结果使用树状结构组织，在场景漫游时根据用户视点到模型的距离加载树中合适的模型，提高渲染效率^[35-37]。一般来说，综合过程中距离较近的建筑物应优先合并，故通常先对建筑物中心点Delaunay三角化，根据距离建立建筑物间的联系。在综合时只合并三角网相连的建筑物^[38-39]。为保留建筑物轮廓的显著性特征，常将地图综合中的删除、夸大等操作应用到基底的综合中^[40]。

2.1.2   符号化表达

地图符号是可视化表达地理环境的基本手段。虽然VGE强调真实感表达，但出于渲染效率的考虑，也会适当对复杂三维建筑物模型进行符号化表达^[41-42]。符号化的基础是对现有建筑物进行特征归纳总结后得到有限数量的模板。为了方便，一般将建筑物的基底和屋顶分开归纳，如图 4所示，可将常见的现代城市建筑物基底分为方型、L字型、T字型等类型，屋顶分为金字塔型、山墙型、A字型等类型^[40]。分类归纳后，需通过计算实际模型与模板间的相似程度来选择匹配的三维符号。基底匹配中，常利用最小二乘法求解与原始复杂模型基底最接近的3D模板^[43-44]。屋顶可划分为多个单元，通过解析每个单元内的屋顶结构，利用预生成的多个屋顶模板与屋顶结构进行匹配，选择最佳匹配模板并调整模板的几何参数（屋脊、屋檐高度等）以代替原模型^[45-46]。匹配后的模型只能保持少量显著特征，精确识别建筑物时出现困难，故在导航领域通常在综合考虑建筑物的局部和全局显著性的基础上^[47]，将显著性高的建筑物精细显示，显著性低的建筑物用简单模板代替^[48-49]，以清晰显示道路及周边建筑物轮廓，方便用户快速定位当前位置。

图 4 建筑物结构模板

Figure 4. Building Structure Templates

下载: 全尺寸图片幻灯片

2.1.3   结构特征的简化

建筑物是一种人工建构对象，其中存在大量的典型结构特征，通过结构提取，以结构为单位进行简化，符合建筑物的建造规律，更容易精细控制建筑物的局部简化，处理结构间的拓扑关系。基于结构特征的简化分为结构特征的定义、提取、简化3步。目前，结构特征没有统一的标准和定义，从宏观尺度上可分为主体结构和细节结构^[50]。微观尺度上可根据结构在建筑物中的凸起、凹陷等特征分为凸起结构和凹陷结构^[45]，也可根据结构间的几何拓扑关系分为连接结构、组合结构等^[51]。不同的结构特征定义会得到不同的结构提取结果，可能造成简化结果的不一致。

主体结构提取最常用的方法是三维模型切割。利用模型中图元的倾角、面积等几何特征识别出切割面^{[45, 52]}或切割环^[53]后，用切割面或切割环切割原建筑物模型，即可得到建筑物的主体结构及一系列凸起凹陷等细节结构，将这些结构存储在构造实体几何（constructive solid geometry, CSG）树中^[54]，在可视化过程中可利用树的深度控制LoD层次。三维模型切割方法仅适用于表面平整、结构简单的建筑物，结构复杂的建筑物（如中国古建筑）的结构特征，要根据模型几何特征，通过模型框线及图搜索等特定的几何分析方法提取^{[51, 55]}。

在此基础上，根据显著性和重要程度不断移除模型细节结构^[56]，可得到简化的模型。结构移除产生的孔洞和缝隙，需通过对边界节点重新三角化修补。模型中小的凸起和凹陷结构也可参考二维图像处理中的形态学操作方法，用扩展到三维的形态学操作中的膨胀和腐蚀操作消除^[57]。

2.2   多因素约束下的简化

简化的基本前提是不破坏用户的理解和感知。除几何信息外，三维建筑物模型还包含复杂的纹理和丰富的语义信息，这都是影响用户理解和感知的重要方面，不考虑这些因素而单纯进行几何简化的方法是存在缺陷的。部分研究尝试对几何简化从纹理、语义及用户理解感知多个方面进行约束，以期取得更好的效果。

2.2.1   纹理约束

纹理作为三维建筑物模型中的重要组成部分，可显著增加模型的细节和真实感，越来越多的研究开始在简化过程中考虑纹理因素。在网格层面对模型简化时，顶点位置的变化会带动多边形纹理映射位置的变化，可能造成纹理变形或扭曲，此问题可通过计算简化误差度量时综合考虑几何误差和纹理误差缓解^[58-60]。基于基底和结构特征的简化中，由于涉及到大量细节结构的移除或合并，需生成多个纹理供不同层次的简化模型使用^{[18, 61]}，但由于纹理的复杂性，多级纹理的组织和自动化生成目前仍没有令人满意的解决方案。基于符号的简化模型与原模型几何结构相差较大，一般直接用模型的主颜色代替纹理。

纹理在一定程度上可反映模型的属性特征，如同种颜色的建筑物要素更容易被认为是同类要素。在建筑物类型数据缺乏时，纹理也能作为建筑物要素合并中的考虑因素^{[60, 62]}。

2.2.2   语义约束

建筑物中包含了丰富的语义信息，早期三维建筑物简化研究主要关注模型的几何特征，而对建筑物模型的语义信息有所忽视。目前应用最广泛的两种建筑物语义标准为用于建筑工程领域的工业基础类（industry foundation classes，IFC）^[63]和用于地理信息领域的城市地理标记语言（city geography markup language, CityGML）^[64-65]。语义信息中能明确定义建筑物部件可作为建筑物结构特征分类的依据。基于语义信息可快速提取出建筑物中的门窗、阳台等具有明确含义的功能结构^[66]，为基于结构特征的简化带来极大便利。在简化过程中涉及要素合并时，可令模型语义信息作为合并的条件，优先合并相同属性的基底^[67-68]或结构^[59]，减少或防止不同语义类型要素的合并，保持简化前后的模型语义的一致性，但合并前后语义信息层级关系未保存，会给基于语义信息的查询带来困难。

2.2.3   用户理解及感知约束

仅通过几何确定的图元或结构重要性不一定能真实反映用户对建筑物的感知情况，故有学者从用户角度出发，用人类理解及感知指导三维建筑物简化。考虑感知的简化的基本原则是优先简化模型中不被人类感知的部分。由于目前三维模型的感知研究比较匮乏，通常先将三维模型转换为二维图像，在二维图像上根据人眼视觉系统（human visual system, HVS）确定感知信息^[69-70]。考虑理解的简化更多应用在大规模城市建筑群基底的综合中，为保持综合后城市的易读性，需保留原城市中的道路、街区、地标建筑物等^[71]，此过程可引入认知心理学作为指导^[72-74]。

3 讨论

3.1   简化方法的局限

三维建筑物模型的简化研究取得了一些成果，这些简化方法能在一定程度上保持模型的几何和拓扑约束，但均存在一定局限。基于投影特征的简化方法借鉴了二维平面制图综合的思想，可用于细节不是很丰富的建筑物（或已简化到一定程度、细节很少的建筑物模型）的简化，对结构复杂的建筑物效果不佳，且建筑物墙体与屋顶的无缝匹配、基底内部要素的简化等问题不能很好解决。三维建筑物的符号化表达需要预先构造三维模板，其简化效果直接受限于模板数量，往往应用于导航、三维旅游地图等较为简单的场景。建筑物结构特征的简化适用于单栋复杂建筑物，但目前三维建筑物的结构特征没有严格统一的标准，简化结果受结构特征定义的影响较大，在应用于大规模三维场景的简化时，更加面临效率低下的问题。

3.2   简化约束的挑战

在纹理、语义、用户理解及感知等因素的约束下，三维建筑物模型的简化质量可望显著提升。在当前简化方法中，纹理未随模型几何信息的变化进行相应调整，容易引起纹理的扭曲、变形、缺失等问题，且多层级复合纹理的自动生成仍面临极大困难。目前建筑物语义信息的具体内容没有明确标准，如何对建筑物进行完备的语义建模仍处于研究初期，语义信息数据采集、模型加工等多个方面的规范还需探索。此外，用户对三维模型的理解感知评价等方面的研究较为缺乏，如何判断对模型效果理解感知的一致性还是一个难题。这几个方面的困难都对简化过程中约束因素的实施带来了很大的挑战。

4 结语

三维建筑物的简化研究已形成了基于几何和多因素约束下的适用于不同应用场景、不同种类建筑物的多种简化方法，这些方法所生成的不同简化层次的建筑物模型在视觉上有关联性，但在几何、拓扑、语义等重要特征方面关联性不足，且层次间数据冗余很大，通常称之为离散LoD模型。离散LoD模型因其细分层次的不足以及层次间的关联不足，难以满足多种应用需求^[75-76]，在离散LoD模型上进行的三维空间分析（如视域因子分析、日照时长分析等）可能会导致不一样的结论^{[13, 77]}。此外，由于离散LoD不同层次的建筑物模型外观形态差别较大，切换时有明显的“跳跃感”^[78]，漫游交互的视觉效果不够好。

有部分学者提出建筑物连续LoD模型的概念^[79-81]，其目标是使建筑物模型在LoD层次间保持建筑物的几何、拓扑、语义关联，并使不同细节层次模型上获得的三维空间分析结论具有较好的一致性，同时使得不同层级间的切换的视觉过渡更加平滑，减弱甚至消除离散LoD不可避免的视觉突变现象。连续LoD模型的相关理论和技术方法都需要更为深入的研究。连续LoD模型的生成对几何、拓扑、语义要素特征的综合优化选取带来了很大的困难，对简化过程中的特征保持、约束表达带来了更丰富的研究内容。

以连续LoD的构建为目标，研究更为完善的建筑物简化算法，是今后相当长时期内的一个挑战，其成功可望为虚拟地理环境可视化、三维空间分析等提供更好的技术支撑，为三维建筑物的应用开辟更广阔的天地。