留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

迁移学习用于多时相极化SAR影像的水体提取

覃星力 杨杰 李平湘 赵伶俐 孙开敏

覃星力, 杨杰, 李平湘, 赵伶俐, 孙开敏. 迁移学习用于多时相极化SAR影像的水体提取[J]. 武汉大学学报 ● 信息科学版, 2022, 47(7): 1093-1102. doi: 10.13203/j.whugis20200121
引用本文: 覃星力, 杨杰, 李平湘, 赵伶俐, 孙开敏. 迁移学习用于多时相极化SAR影像的水体提取[J]. 武汉大学学报 ● 信息科学版, 2022, 47(7): 1093-1102. doi: 10.13203/j.whugis20200121
QIN Xingli, YANG Jie, LI Pingxiang, ZHAO Lingli, SUN Kaimin. Water Body Extraction from Multi-temporal Polarimetric SAR Images Based on Transfer Learning[J]. Geomatics and Information Science of Wuhan University, 2022, 47(7): 1093-1102. doi: 10.13203/j.whugis20200121
Citation: QIN Xingli, YANG Jie, LI Pingxiang, ZHAO Lingli, SUN Kaimin. Water Body Extraction from Multi-temporal Polarimetric SAR Images Based on Transfer Learning[J]. Geomatics and Information Science of Wuhan University, 2022, 47(7): 1093-1102. doi: 10.13203/j.whugis20200121

迁移学习用于多时相极化SAR影像的水体提取

doi: 10.13203/j.whugis20200121
基金项目: 

国家自然科学基金 61971318

国家自然科学基金 42001134

国家自然科学基金 U2033216

深圳市科技计划项目 JCYJ20200109150833977

详细信息
    作者简介:

    覃星力,博士生,主要从事极化SAR影像地物信息提取研究。qinxl@whu.edu.cn

    通讯作者: 赵伶俐,博士,副教授。zhaolingli@whu.edu.cn
  • 中图分类号: P237; P208

Water Body Extraction from Multi-temporal Polarimetric SAR Images Based on Transfer Learning

Funds: 

The National Natural Science Foundation of China 61971318

The National Natural Science Foundation of China 42001134

The National Natural Science Foundation of China U2033216

the Shenzhen Fundamental Research Program JCYJ20200109150833977

More Information
    Author Bio:

    QIN Xingli, PhD candidate, specializes in polarimetric SAR image information extraction. E-mail: qinxl@whu.edu.cn

    Corresponding author: ZHAO Lingli, PhD, associate professor. E-mail: zhaolingli@whu.edu.cn
  • 摘要: 基于机器学习分类器的极化合成孔径雷达(synthetic aperture radar, SAR)影像水体提取方法具有较高的可靠性,但其通常依赖于大量的训练样本,利用该方法进行多时相极化SAR影像的水体提取时,在每一景影像上都人工标注足够数量的训练样本是十分困难且耗时的。同时,SAR影像上固有的相干斑点噪声会进一步加剧样本标注的难度。对此,引入迁移学习方法,利用其知识迁移能力将已有的训练样本的类别标签信息迁移至未标注的样本,以降低获取新样本所需的人工代价,提高水体提取的时效性。使用6景极化SAR影像和4种迁移学习方法进行最佳源域影像选取、样本标签迁移和水体提取实验,实验结果表明,迁移学习方法可以准确地将源域影像上的训练样本的标签信息迁移至其他影像,有效减少其他影像进行水体提取需要的人工标注样本的数量,同时能够维持较高的水体提取精度,在洪涝灾害应急响应中具有一定的应用价值。
  • 图  1  研究路线

    Figure  1.  Study Routes

    图  2  实验数据的伪彩色合成图

    Figure  2.  False Color Synthetic Images of Experimental Data

    图  3  多时相影像间的分布差异

    Figure  3.  Distribution Differences Between Multi-temporal Images

    图  4  水体提取精度误差条形图

    Figure  4.  Error Bar Plots of Accuracies of Water BodyExtraction

    图  5  目标域影像水体提取效果图

    Figure  5.  Water Body Extraction Results of Target Domain Images

    表  1  每种方法样本使用个数

    Table  1.   Sample Usage of Each Method

    方法 源域样本 目标域标注样本 目标域未标注样本
    TrBagg 500 15 485
    BETL 500 15 485
    MIDA 500 0 500
    TCA 500 0 500
    BL1 0 500 0
    BL2 0 15 0
    下载: 导出CSV

    表  2  各方法运行时间/s

    Table  2.   Running Time Required for Each Method/s

    迁移学习方法 标签迁移耗时 水体提取耗时
    TrBagg 1.7 25.5
    BETL 12.6 27.4
    MIDA 28.3 29.4
    TCA 64.8 30.2
    下载: 导出CSV
  • [1] 张波, 张瑞, 刘国祥, 等. 基于SAR影像的贡巴冰川末端冰湖年际变化监测及溃决规律分析[J]. 武汉大学学报∙信息科学版, 2019, 44(7): 1054-1064 doi:  10.13203/j.whugis20190087

    Zhang Bo, Zhang Rui, Liu Guoxiang, et al. Monitoring of Interannual Variabilities and Outburst Regularities Analysis of Glacial Lakes at the End of Gongba Glacier Utilizing SAR Images[J]. Geomatics and Information Science of Wuhan University, 2019, 44(7): 1054-1064 doi:  10.13203/j.whugis20190087
    [2] Santoro M, Wegmuller U. Multi-temporal Synthetic Aperture Radar Metrics Applied to Map Open Water Bodies [J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2014, 7(8): 3225-3238 doi:  10.1109/JSTARS.2013.2289301
    [3] Nguyen D B, Tran G H T. Extraction of Water Body Information from High Spatial Resolution Sentinel-1 SAR Images Using Li's Minimum Cross Entropy Threshold Method: A Case Study of Thac Ba Lake, Yen Bai Province, Vietnam [J]. Journal of Mining and Earth Sciences, 2016, 56: 67-77
    [4] 李玉, 杨蕴, 赵泉华. 结合改进的降斑各向异性扩散和最大类间方差的SAR图像水体提取[J]. 地球信息科学学报, 2019, 21(6): 907-917 https://www.cnki.com.cn/Article/CJFDTOTAL-DQXX201906012.htm

    Li Yu, Yang Yun, Zhao Quanhua. Waterbody Extraction from SAR Imagery Based on Improved Speckle Reducing Anisotropic Diffusion and Maximum Between-Cluster Variance[J]. Journal of Geo-information Science, 2019, 21(6): 907-917 https://www.cnki.com.cn/Article/CJFDTOTAL-DQXX201906012.htm
    [5] 徐川, 华凤, 眭海刚, 等. 多尺度水平集SAR影像水体自动分割方法[J]. 武汉大学学报∙信息科学版, 2014, 39(1): 27-31 http://ch.whu.edu.cn/article/id/2862

    Xu Chuan, Hua Feng, Sui Haigang, et al. Automatic Water Segmentation Method in SAR Images Using Multi-scale Level Set[J]. Geomatics and Information Science of Wuhan University, 2014, 39(1): 27-31 http://ch.whu.edu.cn/article/id/2862
    [6] 邓滢, 张红, 王超, 等. 结合纹理与极化分解的面向对象极化SAR水体提取方法[J]. 遥感技术与应用, 2016, 31(4): 714-723 https://www.cnki.com.cn/Article/CJFDTOTAL-YGJS201604012.htm

    Deng Ying, Zhang Hong, Wang Chao, et al. An Object-Oriented Water Extraction Method Based on Texture and Polarimetric Decomposition Feature[J]. Remote Sensing Technology and Application, 2016, 31(4): 714-723 https://www.cnki.com.cn/Article/CJFDTOTAL-YGJS201604012.htm
    [7] 孙亚勇, 李小涛, 杨锋杰, 等. 基于星载SAR数据的山区水体提取方法研究[J]. 中国水利水电科学研究院学报, 2014, 12(3): 258-263 https://www.cnki.com.cn/Article/CJFDTOTAL-ZGSX201403006.htm

    Sun Yayong, Li Xiaotao, Yang Fengjie, et al. Study on the Mountain Water Extraction Method of the Space-Borne SAR Image[J]. Journal of China Institute of Water Resources and Hydropower Research, 2014, 12(3): 258-263 https://www.cnki.com.cn/Article/CJFDTOTAL-ZGSX201403006.htm
    [8] 叶子伟, 陈小松, 吴敦. 基于Radarsat SAR微波影像的水体提取研究[J]. 测绘地理信息, 2016, 41(2): 54-57 https://www.cnki.com.cn/Article/CJFDTOTAL-CHXG201602014.htm

    Ye Ziwei, Chen Xiaosong, Wu Dun. Water Extraction in Radarsat SAR Images[J]. Journal of Geomatics, 2016, 41(2): 54-57 https://www.cnki.com.cn/Article/CJFDTOTAL-CHXG201602014.htm
    [9] 熊金国, 王丽涛, 王世新, 等. 基于多光谱影像辅助的微波遥感水体提取方法研究[J]. 中国水利水电科学研究院学报, 2012, 10(1): 23-28 https://www.cnki.com.cn/Article/CJFDTOTAL-ZGSX201201004.htm

    Xiong Jinguo, Wang Litao, Wang Shixin, et al. Microwave Water Extraction Supported by Multi-spectral Images[J]. Journal of China Institute of Water Resources and Hydropower Research, 2012, 10(1): 23-28 https://www.cnki.com.cn/Article/CJFDTOTAL-ZGSX201201004.htm
    [10] Jin Huiran, Mountrakis G, Stehman S. Assessing Integration of Intensity, Polarimetric Scattering, Interferometric Coherence and Spatial Texture Metrics in PALSAR-Derived Land Cover Classification [J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2014, 98: 70-84 doi:  10.1016/j.isprsjprs.2014.09.017
    [11] Qin Xingli, Yang Jie, Li Pingxiang, et al. Research on Water Body Extraction from Gaofen-3 Imagery Based on Polarimetric Decomposition and Machine Learning[C]//IEEE International Geoscience and Remote Sensing Symposium, Yokohama, Japan, 2019
    [12] 刘利敏, 余洁, 李小娟, 等. 引入商空间粒度计算的全极化SAR影像分类[J]. 武汉大学学报∙信息科学版, 2018, 43(1): 74-80 doi:  10.13203/j.whugis20150324

    Liu Limin, Yu Jie, Li Xiaojuan, et al. An Improved Full Polarimetric SAR Image Classification Method Combining with Granularity Computing of Quotient Space Theory[J]. Geomatics and Information Scien-ce of Wuhan University, 2018, 43(1): 74-80 doi:  10.13203/j.whugis20150324
    [13] 张文元, 谈国新, 孙传明. 一种从SAR影像到光学影像的翻译方法[J]. 武汉大学学报∙信息科学版, 2017, 42(2): 178-184 doi:  10.13203/j.whugis20150022

    Zhang Wenyuan, Tan Guoxin, Sun Chuanming. An Approach to Translate SAR Image into Optical Ima-ge[J]. Geomatics and Information Science of Wuhan University, 2017, 42(2): 178-184 doi:  10.13203/j.whugis20150022
    [14] Pan S J, Yang Q. A Survey on Transfer Learning [J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10): 1345-1359 doi:  10.1109/TKDE.2009.191
    [15] Kamishima T, Hamasaki M, Akaho S. TrBagg: A Simple Transfer Learning Method and Its Application to Personalization in Collaborative Tagging[C]// The 9th IEEE International Conference on Data Mining, Miami, FL, USA, 2009
    [16] Li Xiaodong, Mao Weijie, Jiang Wei. Extreme Learning Machine Based Transfer Learning for Data Classification [J]. Neurocomputing, 2015, 174: 203-210
    [17] Liu Xiaobo, Wang Guangjun, Cai Zhihua, et al. Bagging Based Ensemble Transfer Learning [J]. Journal of Ambient Intelligence and Humanized Computing, 2016, 7(1): 29-36 doi:  10.1007/s12652-015-0296-5
    [18] Qin Xingli, Yang Jie, Zhao Lingli, et al. A Novel Deep Forest-Based Active Transfer Learning Method for PolSAR Images [J]. Remote Sensing, 2020, 12(17): 2755 doi:  10.3390/rs12172755
    [19] Pan S J, Tsang I W, Kwok J T, et al. Domain Adaptation via Transfer Component Analysis [J]. IEEE Transactions on Neural Networks, 2011, 22(2): 199-210 doi:  10.1109/TNN.2010.2091281
    [20] Qin Xingli, Yang Jie, Li Pingxiang, et al. A Novel Relational-Based Transductive Transfer Learning Method for PolSAR Images via Time-Series Clustering[J]. Remote Sensing, 2019, 11(11): 1358 doi:  10.3390/rs11111358
    [21] Yan K, Kou L, Zhang D. Learning Domain-Invariant Subspace Using Domain Features and Independence Maximization [J]. IEEE Transactions on Cyberne-tics, 2018, 48(1): 288-299 doi:  10.1109/TCYB.2016.2633306
    [22] 赵伶俐, 杨杰, 李平湘, 等. 极化SAR影像弱散射地物统计分类[J]. 遥感学报, 2013, 17(2): 306-319 https://www.cnki.com.cn/Article/CJFDTOTAL-YGXB201302008.htm

    Zhao Lingli, Yang Jie, Li Pingxiang, et al. Statistical Classification of Weak Backscattering Scatterers of PolSAR Image[J]. Journal of Remote Sensing, 2013, 17(2): 306-319 https://www.cnki.com.cn/Article/CJFDTOTAL-YGXB201302008.htm
  • [1] 武芳, 杜佳威, 钱海忠, 翟仁健.  地图综合智能化研究的发展与思考 . 武汉大学学报 ● 信息科学版, 2022, (): -. doi: 10.13203/j.whugis20210687
    [2] 高嘉良, 陆锋, 彭澎, 徐阳.  基于网络文本迁移学习的旅游知识图谱构建 . 武汉大学学报 ● 信息科学版, 2022, 47(8): 1191-1200. doi: 10.13203/j.whugis20220120
    [3] 陈鹏, 汪本康, 高飒, 童小华, 卢文胜, 徐胜华.  利用ResNet进行建筑物倒塌评估 . 武汉大学学报 ● 信息科学版, 2020, 45(8): 1179-1184. doi: 10.13203/j.whugis20200135
    [4] 陈逸敏, 黎夏.  机器学习在城市空间演化模拟中的应用与新趋势 . 武汉大学学报 ● 信息科学版, 2020, 45(12): 1884-1889. doi: 10.13203/j.whugis20200423
    [5] 李平湘, 刘致曲, 杨杰, 孙维东, 黎旻懿, 任烨仙.  利用随机森林回归进行极化SAR土壤水分反演 . 武汉大学学报 ● 信息科学版, 2019, 44(3): 405-412. doi: 10.13203/j.whugis20160531
    [6] 龚健雅.  人工智能时代测绘遥感技术的发展机遇与挑战 . 武汉大学学报 ● 信息科学版, 2018, 43(12): 1788-1796. doi: 10.13203/j.whugis20180082
    [7] 高云龙, 张帆, 屈孝志, 黄先锋, 崔婷婷.  结合样本自动选择与规则性约束的窗户提取方法 . 武汉大学学报 ● 信息科学版, 2018, 43(3): 436-443. doi: 10.13203/j.whugis20150225
    [8] 龚健雅, 季顺平.  从摄影测量到计算机视觉 . 武汉大学学报 ● 信息科学版, 2017, 42(11): 1518-1522, 1615. doi: 10.13203/j.whugis20170283
    [9] 李兰, 陈尔学, 李增元, 冯琦, 赵磊.  极化SAR K-Wishart分类器及其性能评价 . 武汉大学学报 ● 信息科学版, 2016, 41(11): 1498-1504. doi: 10.13203/j.whugis20140649
    [10] 眭海刚, 陈光, 胡传文, 宋志娜.  光学遥感影像与GIS数据一体化的水体分割、配准与提取方法 . 武汉大学学报 ● 信息科学版, 2016, 41(9): 1145-1150. doi: 10.13203/j.whugis20140460
    [11] 廖露, 李平湘, 杨杰, 常虹.  一种基于分布式目标互易性判断的SAR极化定标改进方法 . 武汉大学学报 ● 信息科学版, 2015, 40(8): 1042-1047. doi: 10.13203/j.whugis20140096
    [12] 付海强, 汪长城, 朱建军, 解清华, 赵蓉.  Neumann分解理论在极化SAR植被分类中的应用 . 武汉大学学报 ● 信息科学版, 2015, 40(5): 607-611. doi: 10.13203/j.whugis20130372
    [13] 张良培.  高光谱目标探测的进展与前沿问题 . 武汉大学学报 ● 信息科学版, 2014, 39(12): 1377-1394+1400.
    [14] 陈启浩, 刘修国, 黄晓东, 姜 萍.  一种极化sar协方差矩阵综合四分量分解模型 . 武汉大学学报 ● 信息科学版, 2014, 39(7): 873-877.
    [15] 巫兆聪, 欧阳群东, 胡忠文, 刘玲.  四分量散射模型在极化SAR相干斑滤波中的应用 . 武汉大学学报 ● 信息科学版, 2011, 36(7): 763-766.
    [16] 罗云锋, 普杰, 贲可荣.  软件模块故障倾向预测方法研究 . 武汉大学学报 ● 信息科学版, 2010, 35(5): 562-565.
    [17] 张中山, 燕琴, 余洁, 李岩.  基于粒子群算法的全极化SAR图像非监督分类算法研究 . 武汉大学学报 ● 信息科学版, 2010, 35(8): 941-945.
    [18] 张永军, 吴磊, 林立文, 赵家平.  基于LiDAR数据和航空影像的水体自动提取 . 武汉大学学报 ● 信息科学版, 2010, 35(8): 936-940.
    [19] 程朋根, 岳琛, 朱欣焰.  多源数据支持下的城市生态环境评价及其与人类活动关系的研究 . 武汉大学学报 ● 信息科学版, 0, 0(0): 0-0. doi: 10.13203/j.whugis20200382
    [20] 林森, 刘蓓蓓, 李建文, 刘旭, 秦昆, 郭桂祯.  基于BERT迁移学习模型的地震灾害社交媒体信息分类研究 . 武汉大学学报 ● 信息科学版, 0, 0(0): 0-0. doi: 10.13203/j.whugis20220167
  • 加载中
图(5) / 表(2)
计量
  • 文章访问数:  102
  • HTML全文浏览量:  49
  • PDF下载量:  33
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-10-09
  • 刊出日期:  2022-07-05

迁移学习用于多时相极化SAR影像的水体提取

doi: 10.13203/j.whugis20200121
    基金项目:

    国家自然科学基金 61971318

    国家自然科学基金 42001134

    国家自然科学基金 U2033216

    深圳市科技计划项目 JCYJ20200109150833977

    作者简介:

    覃星力,博士生,主要从事极化SAR影像地物信息提取研究。qinxl@whu.edu.cn

    通讯作者: 赵伶俐,博士,副教授。zhaolingli@whu.edu.cn
  • 中图分类号: P237; P208

摘要: 基于机器学习分类器的极化合成孔径雷达(synthetic aperture radar, SAR)影像水体提取方法具有较高的可靠性,但其通常依赖于大量的训练样本,利用该方法进行多时相极化SAR影像的水体提取时,在每一景影像上都人工标注足够数量的训练样本是十分困难且耗时的。同时,SAR影像上固有的相干斑点噪声会进一步加剧样本标注的难度。对此,引入迁移学习方法,利用其知识迁移能力将已有的训练样本的类别标签信息迁移至未标注的样本,以降低获取新样本所需的人工代价,提高水体提取的时效性。使用6景极化SAR影像和4种迁移学习方法进行最佳源域影像选取、样本标签迁移和水体提取实验,实验结果表明,迁移学习方法可以准确地将源域影像上的训练样本的标签信息迁移至其他影像,有效减少其他影像进行水体提取需要的人工标注样本的数量,同时能够维持较高的水体提取精度,在洪涝灾害应急响应中具有一定的应用价值。

English Abstract

覃星力, 杨杰, 李平湘, 赵伶俐, 孙开敏. 迁移学习用于多时相极化SAR影像的水体提取[J]. 武汉大学学报 ● 信息科学版, 2022, 47(7): 1093-1102. doi: 10.13203/j.whugis20200121
引用本文: 覃星力, 杨杰, 李平湘, 赵伶俐, 孙开敏. 迁移学习用于多时相极化SAR影像的水体提取[J]. 武汉大学学报 ● 信息科学版, 2022, 47(7): 1093-1102. doi: 10.13203/j.whugis20200121
QIN Xingli, YANG Jie, LI Pingxiang, ZHAO Lingli, SUN Kaimin. Water Body Extraction from Multi-temporal Polarimetric SAR Images Based on Transfer Learning[J]. Geomatics and Information Science of Wuhan University, 2022, 47(7): 1093-1102. doi: 10.13203/j.whugis20200121
Citation: QIN Xingli, YANG Jie, LI Pingxiang, ZHAO Lingli, SUN Kaimin. Water Body Extraction from Multi-temporal Polarimetric SAR Images Based on Transfer Learning[J]. Geomatics and Information Science of Wuhan University, 2022, 47(7): 1093-1102. doi: 10.13203/j.whugis20200121
  • 水是人类赖以生存的重要资源,对人类的生存和发展有着重要影响。合成孔径雷达(synthe-tic aperture radar,SAR)具有全天候全天时成像的能力,可以克服天气的影响,穿透云雾获取地表信息。因此,基于SAR影像的水体提取具有独特的优势,能够持续、有效地进行地表水体监测,在城镇规划、工农业生产、水资源治理与保护和洪涝灾害防治等方面具有重要应用价值。

    雷达卫星成像时,入射的雷达波在水体表面容易发生镜面反射[1],因此SAR影像上水体的主要散射类型为表面散射以及一部分由波浪引起的二面角散射,通常表现为亮度较低的同质性区域。基于该特点,目前大部分的SAR影像水体提取方法都是利用影像分割来提取影像上的弱散射地物并从中识别出水体,如阈值分割[2-4]、水平集方法[5]、面向对象分割[6]等。由于SAR的成像机理的影响,在地形起伏较大的区域中进行水体提取容易受阴影的干扰,因此一些研究[7-8]引入了数字高程模型(digital elevation model,DEM)数据进行辅助,以抑制阴影的影响。除了阴影之外,裸土和道路等地物的表面粗糙度低、纹理平滑,在SAR影像上属于弱散射地物,也容易被误分为水体。对此,一些研究引入了更为丰富的特征来增强水体与其他弱散射地物之间的差异,如利用多光谱影像辅助SAR影像的水体提取[9]、基于纹理、多种极化特征和机器学习分类器[10-12]进行水体提取。

    在灾害应急响应中通常需要从多时相的SAR影像中快速获取水体信息,以分析水体的变化趋势为防灾减灾决策提供参考。然而,在该应用场景中,上述SAR影像水体提取方法存在一些问题:基于影像分割的方法虽然较为简单,但分割阈值的选取主观性较强且依赖丰富的专家经验,待处理影像较多时往往难以满足要求;结合地形辅助数据的方法虽然能有效抑制阴影的影响,但地形辅助数据与SAR影像几何配准较为困难,使其难以应付大规模的数据;基于极化特征和机器学习分类器的方法精度较高且具有良好的通用性,但这类方法往往需要人工获取较多数量的训练样本,而在多时相SAR影像的水体提取中,由于SAR影像的视觉特征不明显[13],且其存在较多的相干斑点噪声,因此从每一幅影像上都选取足够的训练样本是十分耗时的。

    针对上述问题,本文将迁移学习方法引入基于极化特征和机器学习分类器的极化SAR影像水体提取流程中,利用迁移学习方法的知识迁移能力来降低获取训练样本所需的人工成本,解决常规水体提取流程难以满足大数据量、高时效性的处理需求的问题。

    对于给定的源域数据、目标域数据、源域任务和目标域任务,迁移学习旨在从源域数据和源域任务获取一定的知识,以提高目标域数据在目标域任务的性能[14]。根据是否有标注数据,可以将迁移学习方法分为3类,目标域存在已标注数据时属于归纳式迁移学习;只有源域存在已标注数据时属于直推式迁移学习;源域和目标域都不存在已标注数据时,属于非监督迁移学习。其中归纳式迁移学习[15-18]和直推式迁移学习[19-21]目前已有较多的研究,它们能够利用源域标注样本,在存在少量或完全不存在目标域标注样本的情况下,对目标域未标注样本进行标注,实现目标域样本集的扩充。

    本文将研究迁移学习方法能否在保证水体提取精度处于较高水平的同时,有效地扩充训练样本以降低获取新样本所需的工作量,提高基于机器学习分类器的多时相极化SAR影像水体提取的处理效率,使其能够满足灾害应急响应中的处理需求。

    • 迁移学习的目的是将源域样本的信息迁移至目标域样本,通常情况下,所有源域样本都具有类别标注信息,目标域样本中只有少量具有类别标注信息或者全都没有类别标注信息。因此本文采用了两种归纳式迁移学习方法和两种直推式迁移学习方法进行实验,以研究在目标域影像具有少量标注样本和没有任何标注样本的情况下的水体提取精度。下文对这4种迁移学习方法进行简单介绍。

      1)迁移Bagging算法。迁移Bagging算法(transfer bagging,TrBagg)[15]是原始Bagging方法的扩展,它认为源域数据由可以表征目标域中概念的数据和与目标域中概念无关的数据组成,因此利用源域信息能够扩充少量的目标域标注样本所包含的信息。它包括两个步骤:学习阶段和过滤阶段。在学习阶段,利用全体已标注数据通过抽样来生成训练子集,训练一系列弱分类器;在过滤阶段,基于目标域标注样本的信息从弱分类器集合中过滤出对目标域任务有帮助的弱分类器子集,将它们作为最终的分类器,用于对目标域未标注样本进行标注。

      本文实验中,在该算法的学习阶段总共抽样生成15个训练样本子集来进行训练得到15个弱分类器,每个子集的样本数量为标注样本总数的1/10,采用支持向量机模型(support vector machine,SVM)作为弱分类器。该算法的过滤阶段的核心策略是:从前一阶段得到的弱分类器集合中过滤出一组对目标域任务最有帮助的弱分类器子集。因此,目标域标注样本的质量越高时,过滤策略就越有效,模型在目标域任务中的性能就越可靠。

      2)基于Bagging的集成迁移学习算法。基于Bagging的集成迁移学习(bagging based ensemble transfer learning,BETL)[17]通过结合源域和目标域数据训练分类器构成评判集,对目标域中的未标注样本进行标记评估。它主要包括初始化和更新两个阶段:初始化阶段生成源域样本子集,并加入全部目标域标注样本得到融合子集,然后训练得到若干分类器;更新阶段则使用前一阶段的分类器对目标域未标注样本进行预测,将预测一致的加入目标域样本集中并训练新的弱分类器,在后续过程中基于训练得到的所有弱分类器再对目标域未标注样本进行标记。重复上述过程,直至得到新的弱分类器集合。用由目标域样本训练得到的弱分类器集合对未标注样本进行预测以获取类别标签。

      实验中,该算法的初始化阶段共生成了15个融合样本子集,从而训练得到包含15个弱分类器的集合H1,弱分类器采用了SVM模型。更新阶段中,首先迭代地取出H1中的所有弱分类器预测一致的目标域未标注样本并赋予其类别标签;然后,加入目标域标注样本集,用于训练出一组新的弱分类器集合H2;最后,基于H2对目标域未标注样本进行预测。在该算法中,融合子集中的目标域标注样本的质量不仅对H1中的各个弱分类器的性能有显著影响,而且还会进一步影响更新阶段得到的目标域标注样本的可靠性。

      3)最大独立性域适应算法。最大独立性域适应算法(maximum independence domain adaptation,MIDA)[21]旨在学习一个具有最大化独立性的特征子空间,用于减少源域与目标域之间的分布差异。该算法首先将数据的背景信息转换为域特征,并将其与数据的原始特征拼接在一起,得到组合特征;然后,利用基于核函数的数据降维方法将特征映射到高维特征空间,再基于Hilbert-Schmidt独立性判据(Hilbert-Schmidt independence criterion,HSIC)对子空间内全体数据与域特征之间的相关程度进行估计,寻找相关程度最低的子空间,相关性越低说明该子空间受域的影响越小,即该子空间相对于域的独立性越高。

      该方法最终将样本从高维特征空间投影到具有最大化独立性的特征子空间,由于该子空间受域的影响较小,可以有效降低源域数据与目标域数据的分布差异。因此,在该子空间中利用源域样本集训练分类器对目标域样本集进行分类能够得到更高的精度。

      在文献[21]中,背景信息为样本采集设备的类型和样本采集的时间,因此本文实验中使用该方法时不使用背景信息构建域特征,而是直接使用输入的特征进行域适应处理。

      实验中该模型的两个关键参数与文献[21]中的一致,即核函数采用线性核函数,μ设为1.0,m设为与输入特征的维度一致。将样本投影到新的特征子空间后,利用源域样本训练SVM模型,以用于对目标域样本进行分类。

      4)迁移成分分析算法。迁移成分分析算法(transfer component analysis,TCA)[19]假设对于两个具有不同数据分布的域,存在一种转换关系,使得转换后两个域的数据分布近似一致,然后在转换后的源域中训练分类器,就能对转换后的目标域进行分类。该算法尝试在再生核希尔伯特空间(reproducing kernel Hilbert space,RKHS)中学习具有跨域表达能力的迁移成分,迁移成分所表示的特征子空间中两个域的分布差异可以有效降低。该算法在以下两个条件的约束下学习迁移成分:(1)源域数据和目标域数据的边际分布尽可能接近;(2)源域样本和目标域样本都保持原始样本的重要信息(如不同类别之间的可分性)。

      该算法最终输出一个特征转换矩阵,利用转换矩阵可以将所有样本投影到新的特征空间中。在该特征空间下使用源域样本训练分类器,对目标域样本进行预测,可以准确获取目标域样本的类别标签。

    • 对于一组待处理的多时相极化SAR影像,本文设计了如图 1所示的研究路线,以利用迁移学习算法来减少对这些影像进行水体提取所需的人工标注样本的数量。该研究路线主要包括最佳源域影像选取、样本标签迁移和影像水体提取3个部分。

      图  1  研究路线

      Figure 1.  Study Routes

      1)最佳源域影像自动选取。由于成像时间、角度、区域等差异的影响,同一类地物在不同影像上的特征分布会存在一定的差异,在迁移学习中将这些差异称为领域间的分布差异。领域间的分布差异会影响迁移学习的效果,当两个领域的差异越小时,两个领域之间越容易进行知识的迁移。

      对于多时相极化SAR影像的水体提取,首先要选取出一幅影像作为源域影像,再基于源域影像向其他目标域影像进行样本标签的迁移。如果选取的源域影像与目标域影像的分布差异较大,势必会影响目标域影像上的迁移效果。同时,通过目视解译难以准确评估哪一幅影像最适合作为源域。因此,本文首先用量化指标衡量所有待处理影像之间的分布差异,然后从中选取出与其他影像的分布差异最小的影像作为源域影像,以保证对目标域影像都能取得良好的迁移效果。

      本文采用最大均值差异(maximum mean discrepancy,MMD)来衡量不同影像间的分布差异,MMD是迁移学习研究中最常用的差异性衡量指标之一,它先将源域数据和目标域数据映射到RKHS中,再计算两组数据的均值的距离。MMD的计算公式为:

      VMMD(XS,XT)=1nSi=1nSψ(XiS)-1nTi=1nTψ(XiT) ]]>

      式中,VMMD表示MMD的值;XSXT分别表示源域数据和目标域数据;nSnT分别表示源域数据和目标域数据的数量;ψ()表示核函数。MMD的值越大说明两组数据的分布差异越大,当两组数据的分布完全一致时,MMD的值等于0。

      通过计算待处理的多时相影像之间的MMD,取出与其他影像的MMD值之和最小的影像作为最佳源域影像。需要说明的是,MMD值的计算不需要样本的类别标注信息,因此对于一组待处理的多时相影像,可以自动化地进行源域影像的选取,找出最有助于提高整体迁移精度的源域影像。

      2)样本标签迁移。样本标签迁移的目的是利用迁移学习方法将源域影像上的样本标签信息迁移至缺乏标注样本的目标域影像,从而扩充这些影像上的标注样本数量。因此,首先在源域影像上人工标注足够的训练样本,然后将源域样本的信息迁移到目标域无标注样本中。

      对于标注样本的使用需求,归纳式迁移学习方法(TrBagg和BETL)除了需要源域样本,还需要有少量的目标域已标注样本参与,才能对大量的目标域未标注样本进行标注;直推式迁移学习方法(MIDA和TCA)不需要任何目标域已标注样本,仅使用源域样本就能对目标域未标注样本进行标注。

      此外,本文还使用了两种基准方法用于对比实验:第一种基准方法(baseline 1,BL1)是监督分类法,它直接使用大量的目标域标注样本来训练水体提取分类器,而不需要进行样本标签迁移;第二种基准方法(baseline 2,BL2)使用少量的目标域标注样本来训练一个分类器,再对目标域未标注样本进行标注。

      由于对目标域未标注样本进行标签迁移,本质上是对这些样本进行分类的过程,因此采用分类的总体精度(overall accuracy,OA)作为目标域样本的标签迁移精度,用于衡量不同方法进行标签迁移的效果。

      3)影像水体提取。本文采用基于极化特征和机器学习分类器的水体提取方法来对每一景目标域影像进行水体提取。具体地说,是利用样本标签迁移中扩充得到的目标域样本集训练一个机器学习分类器,然后基于该分类器对影像像素进行二分类,区分出水体像素和非水体像素。

      这种水体提取方法的精度受训练样本的可靠性和分类器的性能的影响。在训练样本的质量可靠时,这种水体提取方法的精度与最小交叉熵阈值法、水平集法等常规水体提取方法的精度相当或更优[11]。而目标域训练样本的可靠性主要由样本标签迁移的效果决定,也就是说,迁移学习方法进行样本标签迁移的结果会直接影响后续的水体提取的精度。分类器的性能不是本文研究的重点,因此本文结合已有的研究成果,选取随机森林模型作为水体提取分类器,该模型在基于极化特征和机器学习的SAR影像水体提取中具有十分可靠的性能[11]

      水体提取属于二元分类问题,其用户精度P和生产者精度R都是重要的精度指标,而F1分数可以对它们进行综合表示,因此本文选取F1分数作为衡量水体提取精度的指标,它的计算公式为:

      F1=2PRP+R ]]>
    • 实验数据为基于Pauli分解的伪彩色合成图,如图 2所示,6景影像均为C波段升轨的全极化SAR影像,中国湖北省武汉市东湖区域影像的大小为1 000×1 200像素,江苏省苏州市虎丘湿地区域影像的大小为1 520×920像素。其中,武汉-2017为高分3号(Gaofen 3,GF-3)卫星的影像,其余5景影像为Radarsat-2(RD-2)卫星的影像。本文对6景影像都通过目视解译的方式人工勾画了土地利用图,作为水体提取结果验证的真值图。

      图  2  实验数据的伪彩色合成图

      Figure 2.  False Color Synthetic Images of Experimental Data

      在样本标签迁移时,本文使用的迁移学习方法对源域和目标域数据的要求为边际分布不同、条件分布相同,即需要确保所有影像上包含的地物类别相同。而武汉地区的影像中地物类别为水体、植被和建筑,苏州地区的影像中地物类别为水体、植被、建筑和裸土,因此在实验中将苏州地区的影像中的裸土类别从实验区域中剔除。

      每次实验使用的样本都从影像中随机采样得到,每种算法使用的每一类地物样本的数量如表 1所示。

      表 1  每种方法样本使用个数

      Table 1.  Sample Usage of Each Method

      方法 源域样本 目标域标注样本 目标域未标注样本
      TrBagg 500 15 485
      BETL 500 15 485
      MIDA 500 0 500
      TCA 500 0 500
      BL1 0 500 0
      BL2 0 15 0

      实验影像均为全极化影像,为了能够获得更准确的实验结果,本文共使用了35维特征,包括极化相干矩阵中提取的9个元素及26个从不同极化分解方法获取的特征,这些方法分别为H/A/Alpha分解、VanZyl极化分解、Yamaguchi四分量极化分解、Arii极化分解、An_Yang四分量分解、MCSM极化分解和Singh四分量极化分解。

    • 在计算多时相影像间的MMD时,为了提高计算效率,从每一幅影像上随机采样出3 000个样本作为该影像的代表样本,用于评估影像间的分布差异。MMD的计算结果如图 3所示。

      图  3  多时相影像间的分布差异

      Figure 3.  Distribution Differences Between Multi-temporal Images

      由MMD计算结果可以看到,6景影像中武汉-2017与其他影像间的MMD值之和最小,因此将该影像作为源域影像,其他影像作为目标域影像。由于存在5景目标域影像,因此总共进行了5组实验,每组实验重复10次,输出其标签迁移精度均值和水体提取精度均值,并绘制对应的水体提取效果图。

    • 每组实验结果的标签迁移精度和水体提取精度如图 4所示,其中水体提取精度用误差条形图表示,标签迁移精度在相应位置用三角形进行标示。

      图  4  水体提取精度误差条形图

      Figure 4.  Error Bar Plots of Accuracies of Water BodyExtraction

      从每一组实验结果来看,标签迁移精度越高,其水体提取精度越高,即两者呈正相关。由于监督分类方法(BL1)使用的训练样本是完全可靠的,因此它的水体提取精度最高,将其结果作为衡量其他方法的水体提取精度的基准,用蓝色虚线表示。

      对于TrBagg和BETL这两种归纳式迁移学习方法,在5组实验中它们的标签迁移精度较高,因此它们的水体提取精度也显著优于其他方法。同时,它们较小的标准差也说明了它们具有更好的可靠性。原因在于源域影像和目标域影像的成像参数较为接近,源域和目标域之间的差异相对较小,使得归纳式迁移学习能够有效利用少量的目标域信息从大量源域样本中筛选出对目标域有帮助的样本,并将其信息迁移至目标域样本。

      对于MIDA和TCA这两种直推式迁移学习方法,在前4组实验中它们的精度都接近于BETL,但标准差相对较大,说明这两种方法的稳定性不足。而在最后一组实验中,这两种方法的精度都较差,可能的原因在于源域样本和该组目标域样本在特征空间上的差异相对较大,而这两种方法将它们投影到合适的特征子空间,导致源域信息在目标域任务中的效果欠佳。

      BL2的迁移结果的标准差较大且在后3组实验中的水体提取精度较低,这是因为它过于依赖少量的目标域标注样本的信息,当样本信息量不足时,它难以训练出可靠的分类器。

      对比5组实验结果可以发现,武汉地区的影像的水体提取精度要显著高于苏州地区的影像。造成该现象的原因主要有两个:(1)源域与各个目标域之间的差异不同。源域影像为武汉地区的影像,因此当目标域也是武汉地区的影像时,源域样本和目标域样本之间的条件分布差异较小,使源域样本的信息能更有效地迁移至目标域样本。(2)地物类别可分性的差异。相比于武汉地区的影像,苏州地区的影像上各类地物的子类别更多,且水体与其他地物之间的类别可分性相对较低,导致了水体提取精度的降低。

    • 为了对不同方法的有效性作进一步比较,从每组实验中选取了BL1、BL2、TrBagg和TCA这4种方法的水体提取结果,对其水体提取效果和误差源进行分析,如图 5所示,其中蓝色区域为正确识别的水体,绿色区域为漏检的水体,红色区域为误检为水体的其他地物。

      图  5  目标域影像水体提取效果图

      Figure 5.  Water Body Extraction Results of Target Domain Images

      图 5中可以发现,BL1在5组实验中的水体提取效果都较好,漏检率和误检率比较低,证明了基于机器学习分类器进行极化SAR影像水体提取的有效性。而BL2由于训练样本所含信息量不足,误检或漏检现象较为严重。

      将TrBagg和TCA这两种方法的水体提取效果进行对比,可以发现两者的F1分数较为接近,但TrBagg的漏检率较高,而TCA的误检率较高。其原因在于将源域样本的信息迁移至目标域样本时,TrBagg能更准确地迁移对目标域任务有用的信息,因此训练出的分类器可以有效地排除非水体像素,但会导致部分水体被漏检;TCA能更全面地迁移源域样本信息至目标域样本,使训练出的分类器具有较低的漏检率,但会导致一定程度的误检。

      对于水体提取误差的来源,可以发现漏检区域主要集中于水体的边缘,这些漏检水体周围通常都有高大或密集的建筑物,在SAR影像上,这些建筑物引起的相干斑噪声导致水体区域的后向散射强度高于开阔区域的水体,从而容易被检测为其他地物。对于误检现象,通常情况下,SAR影像水体提取中的误检区域主要是其他弱散射回波地物,如道路、阴影和裸露的土壤[22],BL1的结果中的误检现象也正是受到这些地物的影响。而BL2、TrBagg和TCA除了受弱散射回波地物的影响,还受到了训练样本可靠性的影响,因此存在更多的误检区域,在此不再进行深入讨论。

      综上所述,在多时相极化SAR影像的水体提取中,常规的监督分类方法具有很高的精度,但其需要大量的训练样本,在数据量较大时实用性较低;而迁移学习方法可以显著地降低所需的标注样本数量,有利于提高处理效率,满足大数据量、高时效性的处理需求。其中,归纳式迁移学习方法的总体效果更好,但它依旧需要从每一幅目标域影像上人工标注少量的样本;而直推式迁移学习方法具有不依赖任何目标域标注样本的优势,在需要快速地从大量影像数据中提取水体时,具有较大的应用潜力。

    • 本文的实验均在64 bit的Windows 10个人电脑上完成,处理器的随机存取存储器为16.0 GB。实现算法所用编程语言为Python 3。本文统计了在该环境下进行源域影像选取、样本标签迁移和影像水体提取所消耗的时间。其中,在6景影像中进行源域影像选取,每两景影像之间都要计算MMD,因此需要进行15次MMD计算,共耗时为63.68 s。为了避免随机性的干扰,总共进行了10次重复计算,取其平均值作为MMD的最终结果,因此最佳源域影像选取耗时为636.8 s。单次运算中各个迁移学习算法的样本标签迁移和影像水体提取耗时如表 2所示。

      表 2  各方法运行时间/s

      Table 2.  Running Time Required for Each Method/s

      迁移学习方法 标签迁移耗时 水体提取耗时
      TrBagg 1.7 25.5
      BETL 12.6 27.4
      MIDA 28.3 29.4
      TCA 64.8 30.2

      表 2中可以发现,TrBagg进行标签迁移的效率显著优于其他方法,因为它的计算开销主要来自于学习阶段训练15个弱分类器。BETL在初始化阶段和更新阶段都要训练弱分类器,因此计算开销高于TrBagg。而TCA的耗时最长,主要原因在于它将源域样本和目标域样本组合在一起,然后构建3个矩阵进行矩阵运算,因此计算开销较大。

      4种迁移学习方法进行水体提取的耗时存在微小的差别,原因在于本文在训练水体提取分类器时利用了K折交叉验证来自动选取最佳模型参数,当各个方法进行标签迁移得到的样本的质量不一样时,K折交叉验证确定的模型参数会有所不同,导致分类模型运行时间存在一定的差异。

    • 针对基于机器学习的多时相极化SAR影像水体提取方法依赖大量训练样本导致其在实际应用中效率较低的问题,本文引入了迁移学习方法,进行了源域影像选取、样本标签迁移和影像水体提取的实验。实验结果表明,迁移学习方法与基于机器学习的水体提取方法结合,显著地减少了构建高性能水体提取分类器所需的人工标注样本的数量,有效地提高了多时相极化SAR影像水体提取的处理效率和自动化水平,使其能够满足灾害应急响应中的处理需求。

      同时,最佳源域影像选取的研究结果表明,通过比较影像间的分布差异能够准确地选取出对迁移最有帮助的源域影像,对多时相影像处理具有一定指导意义。样本标签迁移的研究结果表明了归纳式迁移学习方法和直推式迁移学习方法都可以有效地将源域影像的样本信息迁移至目标域影像,以降低获取新样本所需的人工代价。其中,归纳式迁移学习方法的计算开销更小且精度更高,而直推式迁移学习方法由于不需要任何目标域标注样本,因此在大尺度数据处理中能够带来的效率提升更为显著。本文对影像水体提取的研究证明了基于迁移学习扩充的训练样本集具有可靠的质量,可以保证水体提取精度维持在较高水平。

参考文献 (22)

目录

    /

    返回文章
    返回