地理人工智能样本:模型、质量与服务

乐鹏, 刘瑞祥, 上官博屹, 曹志鹏, 刘帅旗, 徐翰文

乐鹏, 刘瑞祥, 上官博屹, 曹志鹏, 刘帅旗, 徐翰文. 地理人工智能样本:模型、质量与服务[J]. 武汉大学学报 ( 信息科学版), 2023, 48(10): 1616-1631. DOI: 10.13203/j.whugis20230125
引用本文: 乐鹏, 刘瑞祥, 上官博屹, 曹志鹏, 刘帅旗, 徐翰文. 地理人工智能样本:模型、质量与服务[J]. 武汉大学学报 ( 信息科学版), 2023, 48(10): 1616-1631. DOI: 10.13203/j.whugis20230125
YUE Peng, LIU Ruixiang, SHANGGUAN Boyi, CAO Zhipeng, LIU Shuaiqi, XU Hanwen. GeoAI Training Data: Model, Quality, and Services[J]. Geomatics and Information Science of Wuhan University, 2023, 48(10): 1616-1631. DOI: 10.13203/j.whugis20230125
Citation: YUE Peng, LIU Ruixiang, SHANGGUAN Boyi, CAO Zhipeng, LIU Shuaiqi, XU Hanwen. GeoAI Training Data: Model, Quality, and Services[J]. Geomatics and Information Science of Wuhan University, 2023, 48(10): 1616-1631. DOI: 10.13203/j.whugis20230125

地理人工智能样本:模型、质量与服务

基金项目: 

国家自然科学基金 42071354

详细信息
    作者简介:

    乐鹏,博士,教授,主要研究方向为地理信息系统。pyue@whu.edu.cn

  • 中图分类号: P208

GeoAI Training Data: Model, Quality, and Services

  • 摘要:

    数据驱动的研究范式对地理人工智能(geospatial artificial intelligence, GeoAI)样本数据共享提出了强烈需求。不同的GeoAI应用样本数据内容和组织形式多样,如何构建统一的信息模型,是GeoAI样本数据共享与互操作的前提。通过分析不同GeoAI样本数据的公共特征与核心属性,提出了样本数据的共享信息模型,探讨了样本数据质量指标体系和评估方法,为GeoAI样本数据建库与共享服务提供了参考。

    Abstract:

    The data-driven research paradigm brings a strong demand for training data sharing in geospatial artificial intelligence (GeoAI). The training data content and organization from different GeoAI applications are diverse. A unified information model will lay the foundation for GeoAI training data sharing and interoperability. By analyzing the common features and core attributes of different GeoAI training data, an information model for training data was proposed, and the training data quality elements and evaluation methods were explored. The results provide a reference for development of GeoAI training data stores and sharing services.

  • 自1956年被正式提出以来,人工智能(artificial intelligence,AI)已取得了长足的发展,成为一门前沿交叉学科[1]。从自动驾驶汽车、谷歌阿尔法围棋(AlphaGo)、到最近的ChatGPT/GPT-4等,人工智能获得了前所未有的关注度[2]。其中,机器学习(machine learning,ML)作为人工智能的重要内容发展迅速,而数据量的快速增长和计算基础设施的进步又支撑机器学习的分支深度学习成为近几年的研究热点[3-4]

    中国遥感对地观测(earth observation,EO)与自然资源监测等项目的实施,已经产生了时效性强、覆盖范围广、信息量丰富的海量对地观测数据[5-6]。地理人工智能(geospatial artificial intelligence,GeoAI)技术的发展为这些对地观测数据的应用注入了新的活力。基于深度学习的遥感影像解译与监测技术相对传统方法已经表现出了一定的优势,开始被相关部门普及应用[7-9]。学术界也体现科学研究范式的改变,站在数据科学的角度研究基于AI/ML算法的GeoAI分析模型,以更好地利用不断增长的对地观测数据[10]

    目前主流的GeoAI算法大多是数据驱动型算法,其关键部分是训练数据,或被称为样本数据[11-12]。样本数据直接影响到训练出的AI/ML模型的准确度和可用性。高质量的样本数据需要具有完整的溯源信息、元数据信息和质量评估信息,以更好地服务于AI/ML模型的训练、验证和测试[13]。虽然目前地理空间领域已经积累了海量的对地观测数据,但是缺乏大量开源、可用且组织规范的样本数据,这已经成为了制约对地观测AI/ML模型与应用进一步发展的主要瓶颈。同时,样本数据获取难度大的现状也使得AI/ML算法对比实验的难以重复,影响了算法的评估。

    本文针对GeoAI样本数据的信息模型与共享服务,旨在从以下几个方面进行探讨:(1)样本模型层面,厘清样本与现有数据模型之间的关系,阐明与AI已有样本标注格式的不同,提出考虑标注语义、溯源、质量、更新、一致性的统一样本信息模型,兼容已有的地理信息标准,为多源异构的GeoAI样本数据的标准化表达提供依据。(2)样本质量层面,在兼顾已有空间数据质量标准体系的同时,拓展样本质量指标体系,探讨低质量样本的解决方案。(3)样本服务层面,提出面向多源GeoAI样本数据的共享服务模式,并设计基于数据管道的样本集成服务方法,为样本数据与深度学习模型的耦合提供了基础。

    “样本”术语在地学或生物学等不同领域已有特定的含义,通常指由某采样器通过特定的采样程序获取的对象或现象的代表,英文称为Sample,可以是材料样本(如地矿样本)、生物样本(也称标本)、统计样本(基于概率抽样),也可以是空间样本,即基于代表性位置获取的采样要素[14],如国际上收集发布地矿样本的平台(geosamples.org)。

    AI/ML训练样本与统计样本不同。它通常以特定目的的方式收集,偏离纯粹的概率采样,其中已知的或期望的结果标记为因变量的值,用于生成经过训练的预测模型,满足与类别平衡和代表性等相关的算法特定要求[13]。统计学从样本中得出总体推断,而AI/ML旨在寻找可推广的预测模式[15]。AI/ML样本在国际上也通常命名为Training Data或Training Sample,既区别于传统地学野外采集的物理样本,也不等同于纯粹的统计抽样。因此,GeoAI样本可以理解为服务于地理人工智能机器学习/深度学习模型训练、验证、测试的数据统称,一般由地理数据和标签数据组成。

    为了有效利用不断增长的GeoAI样本数据,提高其可复用性,许多国内外组织或机构在近年来针对样本数据的共享进行了实践,包括Kaggle[16]、国际开放地理信息协会(Open Geospatial Consortium,OGC)研发计划系列(Testbeds)[17-20]、时空资产目录(spatiotemporal asset catalog,STAC)[21]、人工智能就绪对地观测训练数据集(AI ready EO,AIREO)[22]、通用物体和场景识别挑战赛数据集(common objects in context,COCO)[23]等。其中Kaggle是目前全球大规模的在线AI数据分析平台,允许用户将整个样本数据作为一个文件进行共享,无需遵循任何元数据和编码规范。然而,Kaggle平台中共享的样本数据没有以标准化的形式组织。COCO作为一类代表性的标注格式,尚未考虑时空信息,也没有为GeoAI样本数据进行统一的组织和建模。

    针对时空信息领域的样本,STAC规范设计了一个数据目录模型,对数据项进行拓展,增加了针对机器学习的标签字段,以支持样本数据的发现和检索,然而标签字段的设计尚未全面考虑元数据、溯源、质量、更新等。AIREO对GeoAI样本数据集的元数据进行了详细的设计,但对样本数据本身的组织建模尚未有明确的规范。OGC在创新研发计划Testbed-18中,对样本数据的标准需求和已有的TrainingDML-AI工作进行了分析,为样本共享信息模型的FAIR原则(可发现(findable)、可访问(accessible)、可互操作(interoperable)、可重用(reusable)的原则)提出了建议。

    目前,开源样本数据集并没有按照统一的信息模型和服务接口进行表达和共享,通常以数据文件的方式组织,存储在个人服务器、开源资源托管平台和云存储平台中,仅仅提供超链接供用户下载使用,缺乏互操作能力[24]。Kaggle等平台虽然建立起了样本数据的共享生态圈,但并没有提供标准化的服务接口帮助用户获取和使用样本数据,样本数据的共享服务层次不高。因此,现有的样本数据共享服务方法在信息模型、共享范围和服务能力等方面具有较大的局限性,制约了GeoAI应用的发展。

    目前,EO遥感样本是GeoAI样本中最为突出的样本数据类型,大部分开源的遥感样本数据是为场景分类、目标检测、语义分割和变化检测等对地观测AI/ML任务准备的[24-25]。这些样本数据集除传统的光学遥感数据以外,还包括合成孔径雷达(synthetic aperture radar,SAR)、点云等数据。此外,基于多视影像的三维场景重建任务也在近年来成为了EO AI/ML研究的热点[26]。下文将逐一介绍并分析这些典型的EO AI/ML任务与它们所对应的样本数据集的特征。

    1)场景分类

    EO AI/ML场景分类通过分析对地观测影像中的多光谱/高光谱特征和结构特征,理解影像包含的场景类别,从而对影像进行自动/半自动分类。语义类别是对场景内容高层次的知识抽象和概括。EO AI/ML场景分类所需的样本数据一般由每张对地观测影像与其对应的类别文本标注组成。目前,用于场景分类的公开EO AI/ML样本数据集示例见表 1。其中有的数据集使用文件夹名称表示场景类别标签,并将属于相同场景类别的影像数据放入到同一文件夹进行归类,如WHU-RS19;有的则直接在影像数据的文件名中注明场景类别标签,如SenseEarth classify;还有的生成单独的映射文件来表示影像数据和场景类别之间的关系,如SAT-4。

    表  1  现有的公开对地观测AI/ML场景分类数据集示例
    Table  1.  Public EO AI/ML Scene Classification Datasets
    数据集名称 原始数据类型 标注方式 共享方式
    WHU-RS19 光学卫星影像 文件夹名 私有网站
    AID 光学航空影像 文件夹名 网盘
    PatternNet 光学卫星影像 文件夹名 网盘
    SIRI-WHU 光学航空影像 ROI文件 私有网站
    SenseEarth classify 光学卫星影像 影像名 私有网站
    RSSCN7 光学卫星影像 文件夹名 Github
    RSI-CB 光学卫星影像 文件夹名 网盘
    SAT-4 光学卫星影像 MAT文件 网盘
    下载: 导出CSV 
    | 显示表格

    2)目标检测

    EO AI/ML目标检测是根据地物目标对象的特征,定位不同目标对象的位置,并确定所属的地物语义类别。目标检测所需的样本数据由每张影像与对应的若干个目标对象标注组成,每个目标对象标注包括目标对象在影像中的相对位置及其所属类别。一般使用两种类型的边界框来标注目标对象的位置,包括水平边界框和旋转边界框。目前用于目标检测的典型EO AI/ML样本数据集示例见表 2。其中不仅标注使用的标注框类型不同,对标注框采用的信息编码方式也不同,如DOTA数据集使用文本文件来编码标注框,RSOD数据集使用XML文件来编码标注框。

    表  2  现有的公开对地观测AI/ML目标检测数据集示例
    Table  2.  Public EO AI/ML Object Detection Datasets
    数据集名称 原始数据类型 标注方式 共享方式
    VEDAI 光学航空影像 旋转框 私有网站
    DOTA 光学航空影像 旋转框 网盘
    DIOR 光学卫星影像 旋转框 网盘
    KITTI 2D 光学街景影像 水平框 私有网站
    NWPU VHR-10 光学航空影像 水平框 网盘
    RSOD 光学卫星影像 水平框 网盘
    SSDD SAR卫星影像 水平框 网盘
    TGRS-HRRSD 光学卫星影像 水平框 Github
    下载: 导出CSV 
    | 显示表格

    3)语义分割

    EO AI/ML语义分割根据地物类别的特征,将每个像素归类到不同地物类别中。常见的EO AI/ML语义分割任务包括土地覆盖分类和土地利用分类两种[27]。语义分割所需的样本数据由影像与其中每个像素的类别标注组成。目前,用于语义分割的典型对地观测AI/ML样本数据集示例见表 3。其中存在标注使用的图像格式、通道数不一致的情况,如INRIA数据集使用单波段TIFF图片进行标注,而AISD数据集使用红绿蓝三波段PNG图片进行标注;还存在相同类别地物在不同数据集中标注使用的像素值不一致的情况,如建筑物在AISD数据集中使用[255, 0, 0]表示,而在Zurich Summer数据集中则使用[100, 100, 100]表示。此外,针对三维点云数据的语义分割也逐渐成为了对地观测语义分割的重要任务。与将影像中的像素进行分类不同,三维点云数据的语义分割需要对每个三维点的特征进行分析和归类。

    表  3  现有的公开对地观测AI/ML语义分割数据集示例
    Table  3.  Public EO AI/ML Semantic Segmentation Datasets
    数据集名称 原始数据类型 标注方式 共享方式
    GID 光学卫星影像 红绿蓝TIFF图片 网盘
    INRIA 光学航空影像 单波段TIFF图片 私有网站
    UDD5 光学无人机影像 红绿蓝PNG图片 网盘
    AISD 光学航空影像 红绿蓝PNG图片 网盘
    Zurich Summer 光学卫星影像 红绿蓝TIFF图片 私有网站
    Oakland 3-D Point Cloud Dataset 三维点云数据 文本文件 私有网站
    Semantic3D 三维点云数据 文本文件 私有网站
    Toronto3D 三维点云数据 PLY文件 网盘
    下载: 导出CSV 
    | 显示表格

    4)变化检测

    EO AI/ML变化检测样本数据通常包括一组相同地区不同时相的对地观测影像数据,以及它们对应的变化和未变化区域的像素标注。传统的变化检测任务一般要求使用的多时相影像数据类型一致,但随着AI/ML技术的发展,基于异构影像数据的变化检测任务也成为了研究热点,如基于光学影像和SAR影像的变化检测[28]。目前,用于变化检测的典型的EO AI/ML样本数据集示例见表 4。数据集一般使用文件名称来区分不同时相的影像数据和变化标注图像,用户使用时需要阅读其提供的自述文件进行理解,使用成本较高。同时,不同变化检测样本数据集的标注方式也存在差异,如HRSCD数据集标注了全要素地物的变化区域,而WHU-Building数据集只标注了单要素建筑的变化区域。

    表  4  现有的公开对地观测AI/ML变化检测数据集示例
    Table  4.  Public EO AI/ML Change Detection Datasets
    数据集名称 原始数据类型 标注方式 共享方式
    HRSCD 光学航空影像 全要素 IEEE DataPort
    WHU-Building 光学航空影像 单要素 私有网站
    SECOND 光学航空影像 全要素 网盘
    LEVIR-CD 光学卫星影像 单要素 网盘
    UiT HCD California SAR/光学卫星影像 全要素 网盘
    SZTAKI AirChange 光学航空影像 全要素 私有网站
    OSCD 光学卫星影像 全要素 IEEE DataPort
    Mts-WH 光学卫星影像 全要素 私有网站
    下载: 导出CSV 
    | 显示表格

    5)三维重建

    EO AI/ML三维重建任务使用的样本数据通常由两视图或多视图的影像以及它们对应的基于像素级粒度标注的视差图、深度图或对应区域的数字地表模型(digital surface model,DSM)组成。目前用于三维重建的典型EO AI/ML样本数据集示例见表 5。数据集在使用的数据类型、标注方式等方面都存着差异。

    表  5  现有的公开对地观测AI/ML三维重建数据集示例
    Table  5.  Public EO AI/ML 3D Reconstruction Datasets
    数据集名称 原始数据类型 标注方式 共享方式
    WHU MVS 航空影像 五视图深度图 私有网站
    WHU-TLC 卫星影像 三视图DSM 私有网站
    Urban Semantic 3D 卫星影像 单视图DSM IEEE DataPort
    KITTI Stereo 街景影像 双视图视差图 私有网站
    BlendedMVS 航空影像 三视图深度图 网盘
    ETH3D 光学影像 多视图深度图 私有网站
    DTU 光学影像 多视图深度图 私有网站
    下载: 导出CSV 
    | 显示表格

    从上文可以发现,GeoAI样本数据集不仅在数据组成和特征等方面与通用AI领域的样本数据有明显的区别,同时针对不同EO AI/ML应用场景和任务的样本数据集在数据来源、数据类型以及标注方式等不同方面都存在着差异,难以进行统一表达。因此,建立完善的GeoAI样本信息模型需要针对这些差异进行逐一的分析与考虑。

    与一般的数据建模不同,样本建模关注标注的组织与语义。同时也需要考虑通常数据建模涉及的数据粒度、元数据、溯源、质量与更新等,并顾及与已有标准的兼容和使用的轻便性等。本文涉及的样本在数据粒度上可以分为数据集层面和样本实例层面,在此基础上,重点考虑标注、溯源、质量、更新、一致性(C1~C5)5个核心因素,具体细节如下:

    1)C1:标注

    样本数据的一个显著特征是数据通常使用已知值或期望值进行标注,如语义类别、对象位置范围框、遥感影像地面真实值等。其中,针对语义类别的样本标注值通常根据现有分类方案中的相应值进行分配,而不同的AI/ML应用可能使用不同的分类方案来表达样本标注的语义信息。以土地覆盖分类任务为例,在进行土地覆盖分类时,可以使用现有的许多不同分类方案对影像进行解译和标注,从而生成具有不同标注语义的分类结果。由于不同分类方案中类别的名称、层次结构和语义信息通常都存在差异,往往很难统一协调这些不同的分类方案[29-30]。因此,在对样本数据进行信息建模过程中,需要考虑不局限于一种语义分类方案。同时,也考虑能够兼容外部已有的语义分类方案,支持将其关联到样本信息模型中进行应用。

    此外,不同的应用场景涉及不同的样本标注组织,需要从顶层设计可以扩展容纳不同EO AI/ML任务的样本标注模型。如场景分类样本数据由每张对地观测影像与其对应的类别文本标注组成。目标检测样本数据由每张影像与对应的若干个目标对象标注组成,每个目标对象标注包括目标对象在影像中的相对位置及其所属类别。语义分割所需的样本数据由影像与其中每个像素的类别标注组成。变化检测样本数据包括一组相同地区不同时相的对地观测影像数据以及它们对应的变化和未变化区域的像素标注。三维重建任务使用的样本数据通常由两视图或多视图的影像以及它们对应的基于像素级粒度标注的视差图、深度图或对应区域的数字地表模型组成。

    2)C2:溯源

    在地理空间信息领域,关于溯源的研究可以追溯到20世纪90年代早期的地理空间数据谱系的研究[31-32]。目前,溯源已经被确认为是在互联网上进行信息共享的一个基本问题[33]。地理空间领域目前已经提出了两个广泛应用的溯源模型,即W3C PROV模型[34]和ISO 19115-1[35] Lineage模型。W3C PROV模型定义了与生成Web资源有关的实体、活动和代理的信息,而ISO 19115-1 Lineage模型则指定了用于生成地理空间数据集的数据源和处理步骤信息。目前已经有一些工作可以耦合这两种模型,其基本思想是在ISO 19115-1 Lineage模型中找到可以映射到W3C PROV模型中对应类别的实体[36]。通过这种方式,地理空间数据谱系可以被链接到更广泛的Web空间中并在其中实现互操作。样本数据的溯源信息通常包括标注过程、标注者等,但是现有的溯源模型中并没有提供相应的实体来表达这些信息。因此,可以参考上述方法,通过在W3C PROV模型查找实体(样本数据集)、活动(标注过程)和代理(标注者)的对应关系,在样本信息模型中对这些溯源信息进行指定,从而扩展现有的溯源模型来携带特定的溯源信息。

    此外,溯源模型的作用范围可以从数据集层面拓展到样本实例层面,如某样本实例的输入地理影像可能来自不同分辨率数据源,在标注之前重采样为统一分辨率影像,输入影像实例和处理过程可以通过溯源模型记录下来。

    3)C3:质量

    目前,大部分AI/ML应用都会使用大型样本数据集进行训练来提高模型的预测性能。在使用这些样本数据集的过程中,通常假设样本数据集能够准确地表示基本事实,或者模型本身具有一定的鲁棒性,可以容忍样本数据集存在小部分错误。但是,样本数据集的质量在一定程度上仍然会影响AI/ML模型的性能。GeoAI样本数据产生误差或不确定性的主要原因一般是数据不具代表性和存在标注误差。前者可能是数据抽样策略、空间分布不均匀、数据类别不平衡等造成的。而后者一般是由于人工标注出错、标注语义模糊性、以及数据收集过程中的测量误差引起的。当涉及单个样本的地面测量采样如GPS测量时,也需要在样本实例层面评估位置不确定性,而不仅仅是在数据集层面提供质量模型。

    尽管样本数据生产存在误差或不确定性,但空间数据质量评估是一个复杂的过程,涉及以生产者为中心和以用户为中心的两种评估视角,以及空间数据处理过程中存在的不确定性传播[37]。同时,很多数据质量信息难以量化,有时需要结合样本数据的溯源信息或其他属性信息(如图像尺寸、样本数量等)来进行间接评估。因此,目前现有的许多关于样本数据质量评估的工作都集中在特定的任务上,尚不存在被所有AI/ML任务广泛接受的通用质量评估方法。基于上述考虑,本文在构建样本信息模型时,将针对不同的AI/ML任务类型,在现有的通用空间数据质量模型,如ISO 19157-1:2023[38]空间数据质量模型的基础上提供扩展机制,服务于特定的GeoAI样本数据质量评估。

    4)C4:更新

    样本数据的更新是完善样本数据描述、补充样本数据内容、改善样本数据误差、提高样本数据质量的必要过程。如目前在对地观测AI/ML应用中被广泛使用的航空影像目标检测数据集DOTA,从2018年发布以来已经进行了3个版本的更新,在此过程中补充了大量的样本数据[39]。此外,近年来,样本数据的生产也有着从个人组织向众包平台转化的趋势,通过以众包的力量快速获取海量的样本数据来满足高精度AI/ML模型的训练需求[40]。在样本数据的快速迭代更新的过程中,需要及时捕获样本数据贡献者对样本数据集的更改,以提高样本数据集的透明性,并减少样本数据用户的更新代价。

    5)C5:一致性

    在通用信息领域和地理空间领域,数据和元数据建模都已经得到了广泛的研究。样本数据建模可以利用已有的工作基础,与现有的标准保持一致性,以便更好地被广泛采用。如GeoAI样本数据的元数据模型与质量模型可以分别与ISO 19115-1空间数据元数据模型和ISO 19157-1空间数据质量模型进行对齐。此外,样本数据的几何标注形式可以遵循现有的在地理空间领域已经得到了良好的发展和应用的矢量数据模型,包括ISO 19107:2019[41]标准中定义的通用矢量要素模型、OGC提出的地理标记语言(geographic markup language,GML)模型以及基于JSON的地理空间数据交换模型GeoJSON等。GeoAI样本信息模型与这些现有标准保持一致的同时还能有效地利用这些标准来实现自身的部分功能。与FAIR原则的兼容也是样本信息模型具象化过程中需要遵循的原则,包括持久标识符(如DOI)的引入、数据与数据及元数据的互引、可解析的公共词汇、跟数据隐私或伦理相关的使用许可与范围限制等[20]

    通过分析GeoAI样本数据的特点与需求,基于以上核心考虑,总结了描述样本数据所必要的基本概念实体,如图 1所示。具体描述如下:

    图  1  地理人工智能样本概念模型
    Figure  1.  Conceptual Model of GeoAI Training Data

    1)样本数据集(Training Dataset)是多个样本数据单元Training Data的总体集合,以作为AI/ML模型的统一输入。同时,样本数据集对象也是溯源信息的载体和数据质量评估的目标,携带描述整个数据集的基本元数据信息,包括任务描述信息等。

    2)样本数据实例(Training Data)是样本信息模型的核心元素之一,是包含在样本数据集中的单个样本个体,代表了AI/ML模型输入的最小数据单元,用于描述单个训练/验证/测试样本的基本属性和数据内容,包括原始数据信息和对应的若干样本标注信息。

    3)样本标签(Label)是样本信息模型的核心元素之一,代表属于某一个样本数据单元的一个标注结果,用于描述面向AI/ML任务目的通过人工解译等标注活动生成的包含样本原始数据的某种特征的语义信息,用于矫正或评估AI/ML模型的输出,其携带的信息通常需要保证准确性以提高训练出的模型的精度。

    4)样本任务(Task)是样本信息模型的核心元素之一,是针对整个样本数据集的任务描述,用于帮助数据用户识别该样本数据集可用于AI/ML任务类型或模型,如描述EO样本数据集是用于场景分类、目标检测、语义分割、变化检测、还是三维重建任务。

    5)样本质量(Quality)是针对整个样本数据集以及样本数据单元的质量信息描述,包含若干个质量评估指标及其定性或定量的分析结果(考虑C3),用于帮助数据用户挑选样本数据集时识别不同样本数据集的可用性,以及在AI/ML模型训练过程中辅助数据用户对训练结果进行误差分析,从而构建具有更高精度的AI/ML模型。

    6)样本标注活动(Labeling)是对生产样本数据集中样本数据的一次人工标注活动的信息描述,记录了哪几位标注者参与并使用了哪种程序或方法来标注样本数据,即样本数据集和样本数据单元的溯源信息(考虑C2),用于帮助用户数据了解样本数据集和样本数据单元的来源,支持对样本数据集和样本数据单元进行溯源分析,提高样本数据集和样本数据单元的可信度。

    7)样本标注者(Labeler)是对生产样本数据集的人工标注活动中某一参与标注人员的信息描述,用于对数据标注人员进行信息追踪和质量把控,从而进一步支持对每位标注人员进行信誉度分析以建立信任机制。

    8)样本标注程序(Labeling Procedure)是对生产样本数据集的标注活动中参与标注者使用的某一标注程序或方法的信息描述,用于对样本数据标注程序或方法进行透明化管理,支持针对样本数据集标注过程中产生的误差进行分析。

    9)样本变更集(Changeset)是对样本数据集两个版本之间所有样本数据更新信息的描述(考虑C4),在数据集合层面对样本更新进行记录,包括样本数据单元的新增、修改和删除,有助于数据用户了解样本数据集的变化,提高样本数据集更新过程的透明性,也支持通过样本变更集来对样本数据集进行增量更新,减少数据用户的更新代价。

    在概念模型的基础上,为每个基本概念类定义了基本属性元素,构建了地理人工智能样本逻辑模型,如图 2所示。基本属性元素是描述样本数据集特征的元数据集合,包括必选和可选属性,从而支持样本数据集的轻量化表达。同时,这些基本属性元素可以与ISO 19115-1空间数据元数据模型中定义的元素进行映射和关联,从而支持与现有元数据模型进行对齐以保持一致性(考虑C5)。同理,样本数据质量与ISO 19157-1空间数据质量模型进行对齐。

    图  2  地理人工智能样本逻辑模型
    Figure  2.  Logical Model of GeoAI Training Data

    标注信息是样本数据集区别于其他数据集的重要特征,是样本数据概念模型定义的核心元素之一(考虑C1)。由于样本数据的标注有正负标注之分,需要在模型训练时进行区分,因此逻辑模型为AI_Label类添加了布尔型的isNegative(是否为负样本)的可选属性来进行标识。同时,针对不同的AI/ML任务类型,它们使用的样本数据集的标注方式通常都是不一样的。如EO AI/ML任务中,场景分类任务的标注是影像所属的一个场景类别,目标检测任务的标注是影像中目标范围和目标类别,语义分割任务的标注是影像对应的像素分类图。这些对地观测AI/ML任务和对应的标注方法可以归纳为场景级、对象级、像素级3个层级。

    样本数据集的更新不仅包括数据集元数据的更新,还包括样本数据单元的更新,如增加样本标注类别、增加样本数据量、修正样本标注错误以及删除低质量样本数据单元等。通过样本数据集标识datasetId属性和样本数据集版本version属性来定位到指定样本数据集某一个版本的更新变化。针对样本数据单元的更新,将其分为3个类型,即新增样本数据单元、修改样本数据单元、删除样本数据单元。

    在基于样本信息模型的标准化表达的基础上,需要进一步研究样本数据质量的标准化评估与描述方法,以提高样本数据共享与服务的可靠性。在地理信息领域,空间数据质量一直被认为是空间数据元数据的重要组成部分。最新ISO 19157-1空间数据质量模型将空间数据的质量指标分为6个质量维度,包括完整性、逻辑一致性、主题质量、位置精度、时间质量、元质量[38],并提供了数据质量信息模型的扩展机制。

    本文遵循ISO 19157-1:2023空间数据质量模型提出的质量维度划分方法,基于不同类型样本数据的质量特征,从定量分析的角度分别面向场景级、对象级和像素级的GeoAI样本数据设计了相应的质量指标体系,以支持不同应用任务的样本数据集的质量评估。

    场景级GeoAI样本数据的质量指标体系见表 6。在完整性质量维度,评估场景类别标注的缺失和冗余;在逻辑一致性质量维度,评估样本数据集中记录的元数据信息与原始数据不一致的样本数据单元的数量和其所占的百分比;在主题精度质量维度,评估场景标注类别的精度和样本属性的精度;在位置精度质量维度,评估样本的空间位置精度;在时间质量维度,评估样本时间精度和时间有效性;在元质量维度,评估样本质量评估结果的可信度;在质量元素拓展方面,针对AI机器学习可能存在的数据偏见问题,添加样本数据集的总体场景类别的分布平衡度。

    表  6  场景级样本数据质量指标体系
    Table  6.  Training Data Quality Indicator System of Scene Level
    质量维度 质量指标
    完整性 场景类别标注缺失:缺失标注的数量、百分比
    场景类别标注冗余:冗余标注的数量、百分比
    逻辑一致性 影像尺寸信息一致性:不一致样本的数量、百分比
    影像格式信息一致性:不一致样本的数量、百分比
    影像波段信息一致性:不一致样本的数量、百分比
    主题精度 场景标注类别精度:类别错误标注的数量、百分比
    样本属性精度:属性内容错误样本的数量、百分比
    位置精度 样本空间位置精度:空间位置信息错误样本的数量、百分比
    时间质量 样本时间精度:时间信息错误样本的数量、百分比
    样本时间有效性:时间信息无效的样本的数量、百分比
    元质量 样本质量评估结果的度量:可信度等
    质量拓展 场景类别平衡度:各类别标注数量均值、方差、标准差率
    下载: 导出CSV 
    | 显示表格

    对象级GeoAI样本数据的质量指标体系见表 7。在完整性质量维度,不仅评估对象类别标注的完整性,还可以评估对象位置标注的完整性;在逻辑一致性质量维度,除了评估被标注影像数据的尺寸大小、影像格式、影像波段信息与元数据描述的一致性外,还可以关注对象位置标注格式的一致性,以及对象位置标注空间表达的拓扑一致性;在主题精度质量维度,评估对象标注类别精度和样本属性精度;在位置精度质量维度,评估样本的空间位置精度、对象标注位置偏移度和对象标注位置重叠度;在时间质量维度,评估样本的时间精度和时间有效性;在质量元素拓展方面,添加样本数据集的总体对象类别平衡度。

    表  7  对象级样本数据质量指标体系
    Table  7.  Training Data Quality Indicator System of Object Level
    质量维度 质量指标
    完整性 对象类别标注缺失:缺失类别标注的数量、百分比
    对象类别标注冗余:冗余类别标注的数量、百分比
    对象位置标注缺失:缺失位置标注的数量、百分比
    对象位置标注冗余:冗余位置标注的数量、百分比
    逻辑一致性 影像尺寸信息一致性:不一致样本的数量、百分比
    影像格式信息一致性:不一致样本的数量、百分比
    影像波段信息一致性:不一致样本的数量、百分比
    对象位置标注格式一致性:格式不一致标注的数量、百分比
    对象位置标注拓扑一致性:拓扑错误标注的数量、百分比
    主题精度 对象标注类别精度:类别错误标注的数量、百分比
    样本属性精度:属性内容错误样本的数量、百分比
    位置精度 样本空间位置精度:空间位置信息错误样本的数量、百分比
    对象标注位置偏移度:对象标注平均偏移距离、相对百分比
    对象标注位置重叠度:对象标注平均重叠面积、相对百分比
    时间质量 样本时间精度:时间信息错误样本的数量、百分比
    样本时间有效性:时间信息无效的样本的数量、百分比
    元质量 样本质量评估结果的度量:可信度等
    质量拓展 对象类别平衡度:各类别标注数量均值、方差、标准差率
    下载: 导出CSV 
    | 显示表格

    像素级GeoAI样本数据的质量指标体系见表 8。在完整性质量维度,评估影像的像素标注或三维点云的点标注的缺失和冗余;在逻辑一致性质量维度,除了评估影像尺寸、格式、波段信息不一致的样本数据单元的数量和其所占的百分比之外,还可以针对变化检测、三维重建等任务的样本数据集评估影像对的尺寸、格式、空间信息一致性,以及评估标注图像尺寸、格式信息的一致性;在主题精度质量维度,评估像素标注类别精度和样本属性精度;在位置精度质量维度,评估样本空间位置精度;在时间质量维度,评估样本时间精度和时间有效性,还可以面向变化检测任务的多时相影像对评估影像对时间信息的一致性;在可用性质量维度,评估样本数据集的总体像素类别平衡度。

    表  8  像素级样本数据质量指标体系
    Table  8.  Training Data Quality Indicator System of Pixel Level
    质量维度 质量指标
    完整性 像素标注缺失:缺失标注的数量、百分比
    像素标注冗余:冗余标注的数量、百分比
    逻辑一致性 影像尺寸信息一致性:不一致样本的数量、百分比
    影像格式信息一致性:不一致样本的数量、百分比
    影像波段信息一致性:不一致样本的数量、百分比
    影像对尺寸信息一致性:不一致样本的数量、百分比
    影像对格式信息一致性:不一致样本的数量、百分比
    影像对空间信息一致性:不一致样本的数量、百分比
    标注图像尺寸一致性:不一致标注图像的数量、百分比
    标注图像格式一致性:不一致标注图像的数量、百分比
    主题精度 像素标注类别精度:类别错误标注的数量、百分比
    样本属性精度:属性内容错误样本的数量、百分比
    位置精度 样本空间位置精度:空间位置信息错误样本的数量、百分比
    时间质量 样本时间精度:时间信息错误样本的数量、百分比
    样本时间有效性:时间信息无效的样本的数量、百分比
    影像对时间一致性:影像对时间信息不一致样本的数量、百分比
    元质量 样本质量评估结果的度量:可信度等
    质量拓展 像素类别平衡度:各类别标注数量均值、方差、标准差率
    下载: 导出CSV 
    | 显示表格

    一个样本数据集通常包含大量的样本数据单元,对样本数据集中的每一个样本数据和标注信息进行逐一检查和评估十分耗时耗力。合理的考虑是提供完整的样本数据收集过程描述、适当的质量评估信息以及原始数据[13]。其中针对质量指标的定量评估,一般遵循“抽样设计-响应设计-分析和估计”的评估方法[42]

    1)抽样设计方法

    抽样设计是从待进行质量评估的样本数据集中获取抽样样本数据单元,以评估其数据质量来代表整体样本数据集的数据质量,从而降低质量评估的工作量。获取抽样样本数据单元的方法包括概率抽样方法和非概率抽样方法。简单随机、分层随机、聚类和系统抽样都属于概率抽样方法,而非概率抽样方法则包括方便抽样、定额抽样、立意抽样、滚雪球抽样和空间抽样等[43]

    此外,在抽样的过程中还涉及到抽样单元的选择与设计。抽样单元可分为点抽样单元和区域抽样单元,前者如以场景、对象、像素为单元进行抽样,后者如按一定大小的空间区域为单元进行抽样。对抽样单元为何被进行选择需要进行相应的记录,即记录抽样特征以实现可重现性,包括:(1)描述在抽样单元选择中实现的随机化;(2)若实施分层抽样,应描述如何构建层,记录每层抽样比例,指定每层实施的抽样设计,并说明分配给每层的抽样单元的数量和分配的理由;(3)抽样单元的变化需要进行严谨的记录等。

    此外,抽样设计还需要考虑的其他因素,包括样本数据集中各个样本数据单元之间的空间相关性、抽样的规模(抽样样本数据单元容量)、抽样样本数据单元的特征分布,以及抽样样本数据单元和真实参考数据之间的独立性等。

    2)响应设计方法

    响应设计是确定一个抽样样本数据单元对应的真实值或参考数据的方法。准确性较高的参考数据才能得到有意义的质量评估结果。参考数据的来源一般包括以下几种途径:室内人工解译、现有的空间数据产品、现场收集的数据。由于样本数据集的生产过程一般也是在原始数据集上进行标注,因此获取其参考数据可以有以下几种方法:(1)在原始数据上进行更有权威的人工解译获取参考数据;(2)选择空间范围一致的更高分辨率的空间数据进行人工解译获取参考数据;(3)获取空间范围一致的高精度空间数据产品;(4)前往对应的实地区域进行现场勘测获取参考数据。

    为保证质量评估流程的可重用性、公开性和透明性,响应设计方法需要遵循两个原则:(1)能够记录响应设计流程;(2)能够记录参考数据的相关特征。

    3)分析和估计方法

    分析和估计方法的重点在于如何组织和总结质量评估信息以量化质量评估结果。基于GeoAI样本数据质量指标体系,在针对样本数据集的质量进行分析和估计时,可以按照不同质量维度对各个质量指标进行有选择的评估。

    根据质量评估方法可产生相应的评估报告,若经过质量评估后发现该样本确实在完整性、逻辑一致性、主题质量、位置精度、时间质量等方面存在质量问题,由于提升样本质量往往需要耗费大量额外的人力资源,因此,研究如何基于低质量的样本去训练机器学习/深度学习模型是一个亟待解决的问题。本文从漏标、错标、位置偏移与类别平衡度4个代表性方面探讨低质量样本学习问题。

    1)漏标

    标注缺失是影响样本完整性的重要因素。对于场景级样本,标注缺失主要体现在部分影像没有得到类别标注上,但对其他影像的标注情况不存在影响。因此,可以看作如何在少量样本的情况下实现模型训练,属于小样本场景分类任务。对于小样本分类,常用的方法包含度量学习[44]、元学习[45]与半监督学习[46]等方法。此外,在目前预训练大模型流行的背景下,自监督学习方法[47]也展现出了优秀的小样本分类能力。

    对于对象级与像素级样本,标注缺失主要体现在同一幅影像中只有部分地物得到了标注,而剩余的地物所在对象区域或像素没有得到标注。其与场景级的不同之处在于,若场景级标注存在缺失,则整个影像均无法提供类别信息,而对象级与像素级标注缺失并不会造成整幅影像无法提供类别信息的状况,即无法做到训练过程中简单地将无用数据排除掉。若直接将带有漏标问题的对象级与像素级样本进行目标检测与语义分割模型的监督学习训练,其漏标现象将会产生错误的监督信号,从而使模型无法进行正确的地物识别。解决此问题的关键在于如何使模型在训练过程中忽略掉漏标的样本。对于对象级的标注缺失,常用解决思路为选择合理的正负样本选择方法,如Yolov3[48]将存在标注的区域作为正样本,将置信度分数最低的少部分区域作为负样本,其他区域作为无效样本,从而忽略漏标的样本。对于像素级样本的标注缺失,常用解决思路为半监督学习中基于伪标签的方法[49]

    2)错标

    类别的错误标注可以理解为主题质量的重要元素。相较于完整性、位置精度与类别不平衡上的低质量问题,样本的错误标注对模型的精度会产生更大的影响,且难以进行处理。近年来,置信学习[50]被提出来缓解错误标注问题,其基本思想在于估计噪声标签和真实标签的联合分布并根据联合分布找出噪声样本,然后过滤掉噪声样本后进行重新训练。目前,置信学习大多用于场景分类任务[50],对于对象级与像素级的任务并未得到充分的探索,尚处于起步阶段。此外,对于对象级与像素级的错标问题,可同样基于伪标签思想,将错标的样本看作带有噪声的伪标签,从而使用半监督学习方法[49, 51]缓解错标问题。

    3)位置偏移

    位置精度的低质量主要在于样本或标注的空间位置偏移上。对于场景级样本,空间位置偏移问题将导致某些影像未能完全覆盖相关的地物。若空间位置偏移较小,由于场景分类模型具备一定的鲁棒性,可将其作为正确样本对待,或在训练过程中降低其在损失函数计算中的权重从而减轻其对模型训练的影响。若某些样本存在较大的空间位置偏移现象,即该影像已经无法包含相应的地物,则可将其作为漏标样本,从而转化为小样本分类问题。

    对于对象级与像素级样本,位置精度的低质量主要体现在检测框或像素标注无法良好地贴合相应的地物上。若空间位置偏移较小,可在模型训练过程中将其作为正常样本参与训练,受样本的偏移的影响,可能会导致模型的推理结果无法在边缘部分良好地贴合到地物,此时可添加相应的后处理方法纠正推理结果的偏移问题,如条件随机场[52]等方法。若空间位置偏移较大,且模型的鲁棒性无法自动忽略这种错误,可同样基于伪标签思想,将标注错误的样本看作带有噪声的伪标签,从而使用半监督学习方法[49, 51]缓解标注错误问题。此外,对于像素级样本,也可以考虑从样本角度出发,结合弱监督学习的思想,在训练过程中对样本进行迭代更新,提升模型的学习性能[53]

    4)类别平衡度

    样本的类别不平衡现象是影响模型能力的重要因素,这会使模型容易偏向于预测数量较多的类别,而对数量较少的类别产生错误分类的情况,即所谓的数据偏见问题。此问题在场景级、对象级与像素级的样本上都较为常见,其解决方案可从样本、损失函数与学习方法三个方面进行讨论。在样本层面,可利用数据增强、重采样法与图像生成法缓解类别不平衡问题,数据增强法[54]旨在对数量较少的类别进行数据增强,如旋转、翻转、缩放等方式增加训练样本数量;重采样[55]旨在对数量较少的类别进行过采样,使得训练集中各个类别的样本数量相近;图像生成法[56]旨在利用生成对抗网络等模型生成少数量类别的样本。在损失函数层面,可基于类别权重调整的思想,给数量较少的类别赋予更高的权重,如Focal Loss[57]。此外,也可利用自监督学习方法[58],在大量无标注影像上进行模型预训练,再将其迁移到少数类别上,以增强对于少数类别的识别能力。

    样本及AI/ML模型为空间数据基础设施(spatial data infrastructure,SDI)提供了AI赋能。AI赋能的SDI可以被视为一个具有AI/ML相关政策、技术、数据、模型和人员的架构,包含丰富的AI/ML功能[59]。AI/ML样本数据及其编码需要实现可发现、可访问、可互操作和可重用,AI/ML模型也可以作为服务进行发布和调用。

    从AI就绪的角度来看,GeoAI样本数据可以根据AI/ML任务预测目的进行准备,并遵循标准的样本信息模型进行组织,使其能够直接满足AI/ML模型的输入要求。AI就绪的SDI可以工作流的形式实现GeoAI样本数据和AI/ML模型耦合的服务模式。图 3展示了AI就绪工作流的完整流程,它可以分为6个步骤,包括生产、映射、组织、共享、集成、训练。

    图  3  AI就绪工作流
    Figure  3.  AI-ready Workflow

    生产环节SDI中不同的组织机构通过不同的方式生成样本集,包括来自已有数据库、已有样本数据文件以及在线样本标注平台。这些多源样本数据可能组织形式各异,难以互操作。映射环节需要面向SDI互操作要求,对这些不同来源的样本数据集进行标准化,映射到标准GeoAI样本信息模型。组织环节利用样本信息模型构建样本库组织概念设计和逻辑模型,指导GeoAI样本数据库建设。

    共享环节旨在针对不同类别的样本,构建统一的目录管理和数据服务,既方便发现不同的样本数据集,也可以获取跨多个样本集的样本实例集合。集成环节通过样本数据管道实现样本的加载、预处理、转换、迭代等操作,并送入到训练环节,用作AI/ML模型的训练、验证或测试。

    根据样本数据粒度的不同,样本共享服务包含两个层面的服务,一个是样本目录服务,以数据集为基本目录条目,实现样本数据集的发现;另一个是样本数据服务,实现单个乃至跨数据集的样本数据实例查询检索。

    样本目录服务组织和发布不同样本数据集的元数据,可以OGC API-Records[60]标准接口提供访问。Record可以用来记录样本数据集的元数据信息,包括样本数据集的名称、描述、时间范围、地理位置、数据格式等元数据信息。用户可以通过OGC API-Records提供一组标准化的查询参数(如时间、地理位置等)来发现满足自己需求的不同样本数据集。

    样本数据服务提供了从样本库中获取一组样本数据单元的能力。其实现途径有两种,一种是借鉴OGC API通用信息模型(OGC API-Common),遵循REST风格,通过指定一个URI来访问相应的样本数据资源,如/collections /{collectionId}/{viewId}。该URI的组成中,{collectionId}代表某样本数据集的全局标识输入,{viewId}则对应返回的视图类型标识输入,如样本单元集合数据视图标识为items。另外一种是借鉴STAC[21]社区实现规范。其设计了一个数据目录模型(STAC catalog),将各种数据项(STAC item)按目录进行关联,每个数据项作为一个时空资产(asset)数据和元数据信息集合,因此每个样本可以作为一个数据项,并提供了网络应用程序接口(STAC API)以便于发现和检索这些数据。

    原始数据集中的样本数据往往还需要经过一系列的处理和转换,生成可供训练和评估深度学习模型的就绪形式,这一环节统称为样本集成服务,是GeoAI样本数据与AI/ML模型[61-62]相耦合的重要环节。样本数据管道可以提供与深度学习框架集成的样本服务,具体流程如图 4所示,其主要包括样本数据加载、样本数据预处理、样本数据转换、样本数据迭代等流程。

    图  4  样本数据管道
    Figure  4.  Training Data Pipeline

    1)样本数据加载

    样本数据加载管道根据AI/ML任务的需求,通过样本目录和数据服务访问相同或不同数据集来源的样本数据,实现从数据集中完成样本数据的抽取、转换和加载。基于标准化的样本信息模型,支持将样本数据集中提供的样本资源进行重新组合,组合后的样本资源作为用户自定义的全新的数据集,实现样本资源的定制化生成,以便模型更好地理解和学习样本数据。

    2)样本数据预处理

    在GeoAI/ML任务中,样本通道数、格式和标签的一致性是非常重要的,通常需要进行相应的处理以保证一致性。在进行AI/ML任务时,不同通道数的图像需要保持一致性,以保证模型的训练和推断的准确性和稳定性。对于多通道的图像,需要将所有图像的通道数统一,以便于模型对输入数据进行处理。这通常需要进行图像通道的增加或减少,可以通过图像融合、通道拆分、通道填充等方式实现。

    为了模型能够正确地读取和处理图像数据,需要将图像的格式保持一致性。在进行图像格式转换时,需要注意保持数据类型、颜色空间、图像尺寸和数据格式的一致性,以避免因数据不一致而导致的模型学习错误的特征。

    标签的语义类别一致化处理是指对标签进行统一的语义类别划分,使用统一的类别体系来表达,以便于模型能够更好地理解和学习不同类别之间的关系。一致的标签语义类别可以减少可能存在的类别高度相关性,提高模型训练的效率和准确性。

    3)样本数据转换

    样本数据转换过程通常需要对数据进行类型转换、维度转换和归一化处理。对于不同的深度学习框架和模型,输入格式可能有所不同,但一般需要将原始的样本数据转换为模型需要的输入格式;维度转换过程根据不同的框架的要求格式要求调整数据维度顺序;归一化处理确保数据在一定范围内,以使得不同特征之间具有相同的尺度和范围。

    4)样本数据迭代

    样本数据迭代管道面向深度学习框架的数据集生成,将经过数据预处理和数据格式转换后的数据,结合不同的深度学习框架生成为深度学习算法所需的数据集,包括训练集、验证集和测试集等,并按照一定的规则对数据集进行切分、重排、打乱等操作,面向多进程、分布式训练,以便提高AI/ML算法的训练效率和泛化性。

    本文针对目前GeoAI领域样本多源异构与服务能力缺失等问题,围绕GeoAI样本数据共享模型和服务方法展开了研究。从样本数据的信息模型-质量评估-共享服务3个方面进行叙述,旨在解决多源异构的GeoAI样本数据的统一建模问题、多应用场景的GeoAI样本数据的质量评估问题以及GeoAI样本数据的共享服务问题。

    首先,从概念和逻辑层面研究了样本数据的信息模型,提出了顾及标注、溯源、质量、更新、一致性的GeoAI样本信息模型,有助于实现多源异构GeoAI样本数据的标准化表达,既为样本库组织提供了信息模型基础,也为GeoAI样本数据在网络环境下的共享提供互操作基础。

    然后,针对场景级、对象级和像素级不同AI/ML应用,从样本数据质量信息需求出发,在空间数据质量体系下拓展样本数据质量指标体系,研究样本数据质量指标评估方法,探讨了低质量样本学习问题,为GeoAI样本数据的质量评估和低质量样本使用提供了思路。

    最后,面向AI就绪的SDI的建设需求,结合样本建库、共享与集成服务,提出了兼容OGC标准的GeoAI样本服务模式,设计了基于数据管道的样本集成服务方法,为GeoAI样本数据的共享与深度学习模型耦合应用提供了支撑。

    目前,国内外正在开展GeoAI样本建库和标准化相关工作,包括国际OGC的GeoAI样本语言TrainingDML-AI和自然资源部的《地理人工智能样本数据库建设规范》标准,本文的研究为GeoAI样本的共享、建库与服务提供了研究基础,有助于指导标准的制定和发布,为空间数据基础设施走向AI就绪的SDI提供方法支撑。

  • 图  1   地理人工智能样本概念模型

    Figure  1.   Conceptual Model of GeoAI Training Data

    图  2   地理人工智能样本逻辑模型

    Figure  2.   Logical Model of GeoAI Training Data

    图  3   AI就绪工作流

    Figure  3.   AI-ready Workflow

    图  4   样本数据管道

    Figure  4.   Training Data Pipeline

    表  1   现有的公开对地观测AI/ML场景分类数据集示例

    Table  1   Public EO AI/ML Scene Classification Datasets

    数据集名称 原始数据类型 标注方式 共享方式
    WHU-RS19 光学卫星影像 文件夹名 私有网站
    AID 光学航空影像 文件夹名 网盘
    PatternNet 光学卫星影像 文件夹名 网盘
    SIRI-WHU 光学航空影像 ROI文件 私有网站
    SenseEarth classify 光学卫星影像 影像名 私有网站
    RSSCN7 光学卫星影像 文件夹名 Github
    RSI-CB 光学卫星影像 文件夹名 网盘
    SAT-4 光学卫星影像 MAT文件 网盘
    下载: 导出CSV

    表  2   现有的公开对地观测AI/ML目标检测数据集示例

    Table  2   Public EO AI/ML Object Detection Datasets

    数据集名称 原始数据类型 标注方式 共享方式
    VEDAI 光学航空影像 旋转框 私有网站
    DOTA 光学航空影像 旋转框 网盘
    DIOR 光学卫星影像 旋转框 网盘
    KITTI 2D 光学街景影像 水平框 私有网站
    NWPU VHR-10 光学航空影像 水平框 网盘
    RSOD 光学卫星影像 水平框 网盘
    SSDD SAR卫星影像 水平框 网盘
    TGRS-HRRSD 光学卫星影像 水平框 Github
    下载: 导出CSV

    表  3   现有的公开对地观测AI/ML语义分割数据集示例

    Table  3   Public EO AI/ML Semantic Segmentation Datasets

    数据集名称 原始数据类型 标注方式 共享方式
    GID 光学卫星影像 红绿蓝TIFF图片 网盘
    INRIA 光学航空影像 单波段TIFF图片 私有网站
    UDD5 光学无人机影像 红绿蓝PNG图片 网盘
    AISD 光学航空影像 红绿蓝PNG图片 网盘
    Zurich Summer 光学卫星影像 红绿蓝TIFF图片 私有网站
    Oakland 3-D Point Cloud Dataset 三维点云数据 文本文件 私有网站
    Semantic3D 三维点云数据 文本文件 私有网站
    Toronto3D 三维点云数据 PLY文件 网盘
    下载: 导出CSV

    表  4   现有的公开对地观测AI/ML变化检测数据集示例

    Table  4   Public EO AI/ML Change Detection Datasets

    数据集名称 原始数据类型 标注方式 共享方式
    HRSCD 光学航空影像 全要素 IEEE DataPort
    WHU-Building 光学航空影像 单要素 私有网站
    SECOND 光学航空影像 全要素 网盘
    LEVIR-CD 光学卫星影像 单要素 网盘
    UiT HCD California SAR/光学卫星影像 全要素 网盘
    SZTAKI AirChange 光学航空影像 全要素 私有网站
    OSCD 光学卫星影像 全要素 IEEE DataPort
    Mts-WH 光学卫星影像 全要素 私有网站
    下载: 导出CSV

    表  5   现有的公开对地观测AI/ML三维重建数据集示例

    Table  5   Public EO AI/ML 3D Reconstruction Datasets

    数据集名称 原始数据类型 标注方式 共享方式
    WHU MVS 航空影像 五视图深度图 私有网站
    WHU-TLC 卫星影像 三视图DSM 私有网站
    Urban Semantic 3D 卫星影像 单视图DSM IEEE DataPort
    KITTI Stereo 街景影像 双视图视差图 私有网站
    BlendedMVS 航空影像 三视图深度图 网盘
    ETH3D 光学影像 多视图深度图 私有网站
    DTU 光学影像 多视图深度图 私有网站
    下载: 导出CSV

    表  6   场景级样本数据质量指标体系

    Table  6   Training Data Quality Indicator System of Scene Level

    质量维度 质量指标
    完整性 场景类别标注缺失:缺失标注的数量、百分比
    场景类别标注冗余:冗余标注的数量、百分比
    逻辑一致性 影像尺寸信息一致性:不一致样本的数量、百分比
    影像格式信息一致性:不一致样本的数量、百分比
    影像波段信息一致性:不一致样本的数量、百分比
    主题精度 场景标注类别精度:类别错误标注的数量、百分比
    样本属性精度:属性内容错误样本的数量、百分比
    位置精度 样本空间位置精度:空间位置信息错误样本的数量、百分比
    时间质量 样本时间精度:时间信息错误样本的数量、百分比
    样本时间有效性:时间信息无效的样本的数量、百分比
    元质量 样本质量评估结果的度量:可信度等
    质量拓展 场景类别平衡度:各类别标注数量均值、方差、标准差率
    下载: 导出CSV

    表  7   对象级样本数据质量指标体系

    Table  7   Training Data Quality Indicator System of Object Level

    质量维度 质量指标
    完整性 对象类别标注缺失:缺失类别标注的数量、百分比
    对象类别标注冗余:冗余类别标注的数量、百分比
    对象位置标注缺失:缺失位置标注的数量、百分比
    对象位置标注冗余:冗余位置标注的数量、百分比
    逻辑一致性 影像尺寸信息一致性:不一致样本的数量、百分比
    影像格式信息一致性:不一致样本的数量、百分比
    影像波段信息一致性:不一致样本的数量、百分比
    对象位置标注格式一致性:格式不一致标注的数量、百分比
    对象位置标注拓扑一致性:拓扑错误标注的数量、百分比
    主题精度 对象标注类别精度:类别错误标注的数量、百分比
    样本属性精度:属性内容错误样本的数量、百分比
    位置精度 样本空间位置精度:空间位置信息错误样本的数量、百分比
    对象标注位置偏移度:对象标注平均偏移距离、相对百分比
    对象标注位置重叠度:对象标注平均重叠面积、相对百分比
    时间质量 样本时间精度:时间信息错误样本的数量、百分比
    样本时间有效性:时间信息无效的样本的数量、百分比
    元质量 样本质量评估结果的度量:可信度等
    质量拓展 对象类别平衡度:各类别标注数量均值、方差、标准差率
    下载: 导出CSV

    表  8   像素级样本数据质量指标体系

    Table  8   Training Data Quality Indicator System of Pixel Level

    质量维度 质量指标
    完整性 像素标注缺失:缺失标注的数量、百分比
    像素标注冗余:冗余标注的数量、百分比
    逻辑一致性 影像尺寸信息一致性:不一致样本的数量、百分比
    影像格式信息一致性:不一致样本的数量、百分比
    影像波段信息一致性:不一致样本的数量、百分比
    影像对尺寸信息一致性:不一致样本的数量、百分比
    影像对格式信息一致性:不一致样本的数量、百分比
    影像对空间信息一致性:不一致样本的数量、百分比
    标注图像尺寸一致性:不一致标注图像的数量、百分比
    标注图像格式一致性:不一致标注图像的数量、百分比
    主题精度 像素标注类别精度:类别错误标注的数量、百分比
    样本属性精度:属性内容错误样本的数量、百分比
    位置精度 样本空间位置精度:空间位置信息错误样本的数量、百分比
    时间质量 样本时间精度:时间信息错误样本的数量、百分比
    样本时间有效性:时间信息无效的样本的数量、百分比
    影像对时间一致性:影像对时间信息不一致样本的数量、百分比
    元质量 样本质量评估结果的度量:可信度等
    质量拓展 像素类别平衡度:各类别标注数量均值、方差、标准差率
    下载: 导出CSV
  • [1] 中国人工智能学会. 中国人工智能进展: 2009[M]. 北京: 北京邮电大学出版社, 2009.

    Chinese Association for Artificial Intelligence. Chinese Progress for Artificial Intelligence: 2009[M]. Beijing: Beijing University of Posts and Telecommunications Press, 2009.

    [2]

    Garg P K. Overview of Artificial Intelligence[M]//Artificial Intelligence. London: CRC, 2021: 3-18.

    [3] 余凯, 贾磊, 陈雨强, 等. 深度学习的昨天、今天和明天[J]. 计算机研究与发展, 2013, 50(9): 1799-1804. https://www.cnki.com.cn/Article/CJFDTOTAL-JFYZ201309002.htm

    Yu Kai, Jia Lei, Chen Yuqiang, et al. Deep Learning: Yesterday, Today, and Tomorrow[J]. Journal of Computer Research and Development, 2013, 50(9): 1799-1804. https://www.cnki.com.cn/Article/CJFDTOTAL-JFYZ201309002.htm

    [4]

    LeCun Y, Bengio Y, Hinton G. Deep Learning[J]. Nature, 2015, 521(7553): 436-444. doi: 10.1038/nature14539

    [5] 李德仁, 龚健雅, 李京伟, 等. 中国空间数据基础设施建设[J]. 测绘通报, 2002(11): 4-7. https://www.cnki.com.cn/Article/CJFDTOTAL-CHTB200212000.htm

    Li Deren, Gong Jianya, Li Jingwei, et al. Establishment of the Spatial Data Infrastructure of China[J]. Bulletin of Surveying and Mapping, 2002(11): 4-7. https://www.cnki.com.cn/Article/CJFDTOTAL-CHTB200212000.htm

    [6] 李德仁, 王密, 沈欣, 等. 从对地观测卫星到对地观测脑[J]. 武汉大学学报(信息科学版), 2017, 42(2): 143-149. https://www.cnki.com.cn/Article/CJFDTOTAL-WHCH201702001.htm

    Li Deren, Wang Mi, Shen Xin, et al. From Earth Observation Satellite to Earth Observation Brain[J]. Geomatics and Information Science of Wuhan University, 2017, 42(2): 143-149. https://www.cnki.com.cn/Article/CJFDTOTAL-WHCH201702001.htm

    [7] 龚健雅, 钟燕飞. 光学遥感影像智能化处理研究进展[J]. 遥感学报, 2016, 20(5): 733-747. https://www.cnki.com.cn/Article/CJFDTOTAL-YGXB201605007.htm

    Gong Jianya, Zhong Yanfei. Survey of Intelligent Optical Remote Sensing Image Processing[J]. Journal of Remote Sensing, 2016, 20(5): 733-747. https://www.cnki.com.cn/Article/CJFDTOTAL-YGXB201605007.htm

    [8] 龚健雅. 人工智能时代测绘遥感技术的发展机遇与挑战[J]. 武汉大学学报(信息科学版), 2018, 43(12): 1788-1796. https://www.cnki.com.cn/Article/CJFDTOTAL-WHCH201812005.htm

    Gong Jianya. Chances and Challenges for Development of Surveying and Remote Sensing in the Age of Artificial Intelligence[J]. Geomatics and Information Science of Wuhan University, 2018, 43(12): 1788-1796. https://www.cnki.com.cn/Article/CJFDTOTAL-WHCH201812005.htm

    [9]

    Reichstein M, Camps-Valls G, Stevens B, et al. Deep Learning and Process Understanding for Data-driven Earth System Science[J]. Nature, 2019, 566(7743): 195-204.

    [10]

    Yue P, Ramachandran R, Baumann P, et al. Recent Activities in Earth Data Science Technical Committees[J]. IEEE Geoscience and Remote Sensing Magazine, 2016, 4(4): 84-89.

    [11]

    Cheng G, Han J W, Lu X Q. Remote Sensing Image Scene Classification: Benchmark and State of the Art[J]. Proceedings of the IEEE, 2017, 105(10): 1865-1883.

    [12]

    Russell S, Norvig P. Artificial Intelligence: A Modern Approach[M]. Upper Saddle River: Pearson, 2009.

    [13]

    Elmes A, Alemohammad H, Avery R, et al. Accounting for Training Data Error in Machine Learning Applied to Earth Observations[J]. Remote Sensing, 2020, 12(6): 1034.

    [14]

    Cox S. OGC 10-004r3 Geographic Information – Observations and Measurements, Version 2.0[S]. Wayland, USA: Open Geospatial Consortium Inc, 2013.

    [15]

    Bzdok D, Altman N, Krzywinski M. Statistics Versus Machine Learning[J]. Nature Methods, 2018, 15(4): 233-234.

    [16]

    Kaggle. Kaggle: Your Home for Data Science[EB/OL]. [2022-09-20] https://www.kaggle.com.

    [17]

    Landry T. OGC® Testbed-14: Machine Learning Engineering Report[R]. Open Geospatial Consortium, 2018.

    [18]

    Sam M. OGC® Testbed-15: Machine Learning Engineering Report[R]. Open Geospatial Consortium, 2019.

    [19]

    Guy S. OGC® Testbed-16: Machine Learning Training Data Engineering Report[R]. Open Geospatial Consortium, 2021.

    [20]

    Sam L, Kate W, Caitlin A, et al. OGC® Testbed-18: Machine Learning Training Data Engineering Report[R]. Open Geospatial Consortium, 2023.

    [21]

    STAC. SpatioTemporal Asset Catalog[EB/OL]. [2021-12-2] https://stacspec.org.

    [22]

    AIREO. AI Ready EO Training Datasets[EB/OL]. [2021-12-18] https://eo4society.esa.int/projects/aireo.

    [23]

    COCO. Common Objects in Context[EB/OL]. [2021-08-26] https://cocodataset.org.

    [24] 龚健雅, 许越, 胡翔云, 等. 遥感影像智能解译样本库现状与研究[J]. 测绘学报, 2021, 50(8): 1013-1022. https://www.cnki.com.cn/Article/CJFDTOTAL-CHXB202108004.htm

    Gong Jianya, Xu Yue, Hu Xiangyun, et al. Status Analysis and Research of Sample Database for Intelligent Interpretation of Remote Sensing Image[J]. Acta Geodaetica et Cartographica Sinica, 2021, 50(8): 1013-1022. https://www.cnki.com.cn/Article/CJFDTOTAL-CHXB202108004.htm

    [25]

    Ma L, Liu Y, Zhang X, et al. Deep Learning in Remote Sensing Applications: A Meta-analysis and Review[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2019, 152: 166-177.

    [26]

    Han X F, Laga H, Bennamoun M. Image-based 3D Object Reconstruction: State-of-the-Art and Trends in the Deep Learning Era[J]. IEEE Tran⁃sactions on Pattern Analysis and Machine Intelligence, 2021, 43(5): 1578-1604.

    [27]

    Talukdar S, Singha P, Mahato S, et al. Land-use Land-cover Classification by Machine Learning Classifiers for Satellite Observations—A Review[J]. Remote Sensing, 2020, 12(7): 1135.

    [28]

    Wan L, Xiang Y M, You H J. An Object-based Hierarchical Compound Classification Method for Change Detection in Heterogeneous Optical and SAR Images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(12): 9941-9959.

    [29]

    Herold M, Woodcock C E, di Gregorio A, et al. A Joint Initiative for Harmonization and Validation of Land Cover Datasets[J]. IEEE Transactions on Geoscience and Remote Sensing, 2006, 44(7): 1719-1727.

    [30]

    Loveland T R, Reed B C, Brown J F, et al. Development of a Global Land Cover Characteristics Database and IGBP DISCover from 1 km AVHRR Data[J]. International Journal of Remote Sensing, 2000, 21(6/7): 1303-1330.

    [31]

    Di L P, Yue P, Ramapriyan H K, et al. Geoscience Data Provenance: An Overview[J]. IEEE Transactions on Geoscience and Remote Sensing, 2013, 51(11): 5065-5072.

    [32] 乐鹏, 郭霞, 张晨晓, 等. 空间数据溯源的概念、模型与服务[J]. 地理与地理信息科学, 2015, 31(6): 1-7. https://www.cnki.com.cn/Article/CJFDTOTAL-DLGT201506001.htm

    Yue Peng, Guo Xia, Zhang Chenxiao, et al. Geospatial Data Provenance: Concept, Model and Services[J]. Geography and Geo⁃Information Science, 2015, 31(6): 1-7. https://www.cnki.com.cn/Article/CJFDTOTAL-DLGT201506001.htm

    [33]

    Yue P, Wei Y, Di L, et al. Sharing Geospatial Provenance in a Service-oriented Environment[J]. Computers, Environment and Urban Systems, 2011, 35(4): 333-343.

    [34]

    Closa G, Masó J, Proß B, et al. W3C PROV to Describe Provenance at the Dataset, Feature and Attribute Levels in a Distributed Environment[J]. Computers, Environment and Urban Systems, 2017, 64: 103-117.

    [35]

    ISO/TC 211. ISO 19115-1: 2014, Geographic Information⁃Metadata⁃Part 1: Fundamentals[S]. ISO, 2014.

    [36]

    Jiang L, Yue P, Kuhn W, et al. Advancing Interoperability of Geospatial Data Provenance on the Web: Gap Analysis and Strategies[J]. Computers & Geosciences, 2018, 117: 21-31.

    [37]

    Goodchild M F. Beyond Metadata: Towards User-Centric Description of Data Quality[C]//Proceedings of the 5th International Symposium on Spatial Data Quality, ISPRS, Berlin, Germany, 2007.

    [38]

    ISO/TC 211. ISO 19157-1: 2023, Geographic Information—Data Quality[S]. ISO, 2023.

    [39]

    Ding J, Xue N, Xia G S, et al. Object Detection in Aerial Images: A Large-scale Benchmark and Challenges[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(11): 7778-7796.

    [40]

    Schmidt F A. Crowdsourced Production of AI Training Data: How Human Workers Teach Self-Driving Cars How to See[R]. Düsseldorf: Hans-Böckler-Stiftung, 2019.

    [41]

    ISO/TC 211. ISO 19107: 2019, Geographic Information—Spatial Schema[S]. ISO, 2019.

    [42]

    Stehman S V, Czaplewski R L. Design and Analysis for Thematic Map Accuracy Assessment[J]. Remote Sensing of Environment, 1998, 64(3): 331-344.

    [43]

    Burger A, Silima T. Sampling and Sampling Design[J]. Journal of Public Administration, 2006, 41(3): 656-668.

    [44]

    Vinyals O, Blundell C, Lillicrap T, et al. Matching Networks for One Shot Learning[J]. Advances in Neural Information Processing Systems, 2016, 29: 3637-3645.

    [45]

    Li H, Cui Z, Zhu Z, et al. RS-MetaNet: Deep Meta Metric Learning for Few-Shot Remote Sensing Scene Classification[J]. ArXiv Preprint, 2020, ArXiv: 2009.13364.

    [46]

    Li X, Sun Q, Liu Y, et al. Learning to Self-Train for Semi-Supervised Few-Shot Classification[J]. Advances in Neural Information Processing Systems, 2019, 32: 10276-10286.

    [47]

    Grill J B, Strub F, Altché F, et al. Bootstrap Your Own Latent — A New Approach to Self-Supervised Learning[J]. Advances in Neural Information Processing Systems, 2020, 33: 21271-21284.

    [48]

    Redmon J, Farhadi A. Yolov3: An Incremental Improvement[J]. ArXiv Preprint, 2018, ArXiv: 1804.02767.

    [49]

    Wang J X, Chen S B, Ding C H Q, et al. RanPaste: Paste Consistency and Pseudo Label for Semisupervised Remote Sensing Image Semantic Segmentation[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-16.

    [50]

    Northcutt C, Jiang L, Chuang I. Confident Learning: Estimating Uncertainty in Dataset Labels[J]. Journal of Artificial Intelligence Research, 2021, 70: 1373-1411.

    [51]

    Hu S, Liu C H, Dutta J, et al. PseudoProp: Robust Pseudo-label Generation for Semi-supervised Object Detection in Autonomous Driving Systems[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), New Orleans, USA, 2022.

    [52]

    Pan X, Zhao J, Xu J. An End-to-end and Localized Post-processing Method for Correcting High-resolution Remote Sensing Classification Result Images[J]. Remote Sensing, 2020, 12(5): 852.

    [53]

    Khoreva A, Benenson R, Hosang J, et al. Simple Does It: Weakly Supervised Instance and Semantic Segmentation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, USA, 2017.

    [54]

    Afzal S, Maqsood M, Nazir F, et al. A Data Augmentation-based Framework to Handle Class Imbalance Problem for Alzheimer's Stage Detection[J]. IEEE Access, 2019, 7: 115528-115539.

    [55]

    Bellinger C, Corizzo R, Japkowicz N. Remix: Calibrated Resampling for Class Imbalance in Deep Learning[J]. ArXiv Preprint, 2020, ArXiv: 2012.02312.

    [56]

    Awan S E, Bennamoun M, Sohel F, et al. Imputation of Missing Data with Class Imbalance Using Conditional Generative Adversarial Networks[J]. Neurocomputing, 2021, 453: 164-171.

    [57]

    Wang J, Li F, Bi H X. Gaussian Focal Loss: Learning Distribution Polarized Angle Prediction for Rotated Object Detection in Aerial Images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-13.

    [58]

    Sun X, Wang P J, Lu W X, et al. RingMo: A Remote Sensing Foundation Model with Masked Image Modeling[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 1-22.

    [59]

    Yue P, Shangguan B Y, Hu L, et al. Towards a Training Data Model for Artificial Intelligence in Earth Observation[J]. International Journal of Geographical Information Science, 2022, 36(11): 2113-2137.

    [60]

    Panagiotis A V, Tom K, Charles H, et al. OGC 20-004 OGC API - Records-Part 1: Core, Version 1.0.0[S]. Wayland, USA: Open Geospatial Consortium Inc, 2020.

    [61]

    Paszke A, Gross S, Massa F, et al. PyTorch: An Imperative Style, High-performance Deep Learning Library[J]. Advances in Neural Information Processing Systems, 2019, 32: 8024-8035.

    [62]

    Abadi M, Agarwal A, Barham P, et al. Tensorflow: Large-Scale Machine Learning on Heterogeneous Distributed Systems[EB/OL]. (2016-04-14)[2023-02-23]. https://arxiv.org/abs/1603.04467.

  • 期刊类型引用(3)

    1. 樊玮,雷新海,杨然. 基于数字孪生的“一网统管”实践探讨. 测绘通报. 2024(S1): 226-229 . 百度学术
    2. 燕琴,顾海燕,杨懿,李海涛,沈恒通,刘世琦. 智能遥感大模型研究进展与发展方向. 测绘学报. 2024(10): 1967-1980 . 百度学术
    3. 于飞,隋正伟,邱凤婷,龚婷婷,赵旭东,刘子浩. SAR图像智能解译样本数据集构建进展综述. 网络安全与数据治理. 2023(S1): 97-105 . 百度学术

    其他类型引用(0)

图(4)  /  表(8)
计量
  • 文章访问数:  894
  • HTML全文浏览量:  176
  • PDF下载量:  289
  • 被引次数: 3
出版历程
  • 收稿日期:  2023-04-09
  • 网络出版日期:  2023-04-19
  • 刊出日期:  2023-10-04

目录

/

返回文章
返回