文章信息
- 王云艳, 何楚, 赵守能, 陈东, 廖明生
- WANG Yunyan, HE Chu, ZHAO Shouneng, CHEN Dong, LIAO Mingsheng
- 基于多层反卷积网络的SAR图像分类
- Classification of SAR Images Based on Deep Deconvolutional Network
- 武汉大学学报·信息科学版, 2015, 40(10): 1371-1376
- Geomatics and Information Science of Wuhan University, 2015, 40(10): 1371-1376
- http://dx.doi.org/10.13203/j.whugis20140366
-
文章历史
- 收稿日期: 2014-05-07
2. 湖北工业大学电气与电子工程学院, 湖北 武汉, 430072;
3. 00683 武汉大学电子信息学院, 湖北 武汉, 430072;
4. 国防科技大学ATR重点实验室, 湖南 长沙, 410073
2. School of Electrical and Electronic Engineering, Hubei University of Technology, Wuhan 430068, China;
3. Electronic and Information School, Wuhan University, Wuhan 430072, China;
4. ATR Key Laboratory, National University of Defense Technology, Changsha 410073, China
合成孔径雷达(synthetic aperture radar,SAR)是一种主动式微波传感器,在目标识别、地物分类、水体监测等领域具有很大的应用潜力。随着SAR遥感系统的不断发展,研究如何有效地实现SAR图像的分类和识别具有重要意义[1]。
提取图像特征进行分类与识别是SAR图像解译的重要方法。最基本的特征有灰度特征、栅格特征、纹理特征、形状特征、模板特征等,如吴晓红等提出了采用模板特征进行SAR图像目标识别[2]。由于这些基本特征没有包含位置关系、场景等,使得其不能保留空间信息,因而出现了很多新的特征提取方法,如Gabor、小波变换法等。万朋等[3]结合小波变换和自适应维纳滤波提出了一种新的SAR图像目标综合检测方法;考虑到整个图像的信息较为复杂且难以处理,针对局部信息的特征提取方法,如子块划分等相继被提出,殷慧[4]利用一种基于局部特征表达和最近邻分类器对高分辨率SAR图像的城区场景二级地物进行了分类;为了去除冗余特征和不相关特征,提高分类算法的执行效率,随后又出现了很多特征降维方法,包括特征选择[5]、主成分分析[6]、压缩感知[7]等,如宦若虹等[6]利用小波域主成分分析和支持向量机(support vector machine,SVM)实现SAR图像特征的提取与目标识别。然而这些算法都只适用于获取图像的低层结构特征(如边缘梯度等),无法获取中层和高层的结构信息(如转角、节点等)。针对该问题,Hinton等[8]于2006年提出深度学习的概念,为解决与深层结构相关的优化难题带来了可能。深度学习能通过组合低层特征,形成更加抽象的高层表示,以发现数据的分布式特征。近年来,已经出现了很多经典的深度学习模型,如DBN(deep belief net)[9]、AutoEncoder[10]、稀疏编码[11]等。深度学习模型已被成功应用于语音识别[9]、图像处理[11]等领域。
本文引入深度学习的理论来解决SAR图像高层特征的提取问题,通过建立一个多层的反卷积网络(deconvolutional nerwork,DN)[12],实现高层结构特征的提取。本文的主要贡献在于池化(pooling)操作时引入了一个软概率的池化开关变量s,用于存放池化操作中特征值的位置。
1 多层反卷积网络两层的反卷积网络如图 1所示,每层反卷积网络经过反卷积和池化运算进入下一层网络,多层反卷积网络就是单层反卷积网络的叠加。
反卷积网络模型的关键在于它是基于原始输入图像的重建。该模型采用分层的方式,每层由反卷积稀疏编码和池化组成,二者交替进行。在一个超完备集的稀疏限制下,模型每一层的重建都与原始输入图像的误差最小。第l层的代价函数Cl(y)由两部分组成,第一项是重构项与原图像的误差项,第二项是具有稀疏1范数的关于特征图z的正则项。如式(1)所示:
式中,λl作为权重可以权衡误差项和正则项的比重。从Cl(y)可以看出,本文模型是最小化当前层重建 与原始图像的误差,而不是与前一层的输出 之间的误差。 这样随着网络层数的增加,得到的特征图与原始输入图像的联系不会随之疏远,系统更加符合实际。
2 重建与学习过程及池化方法 2.1 多层反卷积网络的重建与学习过程对于层数为 l层的反卷积网络,定义重建算子为Ri,因此根据图 1有:
式中,F为卷积运算;Us为反池化运算;zl为第l层的特征图。同样,也可以将原始输入传播到第l层,这样就可以学习到第l层的特征图zl:
式中,FT为反卷积运算;Ps为池化运算。
2.2 基于软概率的池化方法
传统的反卷积网络多采用硬概率池化方法,即在池化时只记录特征值,这样重建图像的反池化(unpooling)操作中就只能简单地把特征值放在中间位置。这种池化过于简单,重建的图像将会存在模糊和抖动。
本文提出的软概率池化(soft probability pooling,SPP)方法能同时记录特征值和池化特征值的位置,也就是在每层的反卷积结束后,引入一个软概率池化位置变量s,用于存放池化操作中特征值的位置,同样的,p用于存放SPP池化后的特征值。反池化时,使特征值位于软概率计算出的位置,这样多层反卷积网络的重建图像与原图像最接近,避免了模糊或抖动的影响,鲁棒性更高。
具体二维的池化过程的示意图如图 2所示,同样可延伸至三维甚至多维。假设需要池化的特征图为z,则基于SPP的池化模型为: [p,s]=P(z),首先记录下池化区内排在前面的n个特征值(z1,z2,…,zn)及其相应的位置(s1,s2,…,sn) ,SPP池化后的特征值p为这n个特征值的平均绝对值,即
同样的,SPP池化后的位置变量 s也由这n个特征值的位置决定,特征值为相应的权值,即
相应的,反池化模型为: =U(p,s),方法是把特征值p放在由 s决定的相应的位置中,特征图中的其余位置均被设置为0,如图 2所示。
3 基于SPP池化的多层反卷积网络的SAR图像分类算法本文提出了一种基于SPP池化的多层反卷积网络(soft probability pooling deep deconvolutional network,SPP-DCN)的SAR特征提取算法,其原理框架图如图 3所示。首先准备一个单极化SAR数据,取不同图像作为训练和测试图像,并做一定的预处理;然后,用该数据中的每类作物的数据训练出该类的滤波器参数模型;其次,将测试数据分别输入每个类别的滤波器网络,利用学习的特征和滤波器参数得到重建图像,通过重建图像与输入图像的误差优化,不断更新学习的特征,直到得到最优特征;再次,通过每个类别的滤波器网络都将得到一个特征,将所有特征串联起来得到最终的特征矢量;最后,将特征矢量导入分类器SVM,并对分类结果进行估计和评测。
该模型中重要的两个变量是特征图z和滤波器f,在训练滤波器模型中,需要得到不同类别的滤波器网络,在计算过程中也必须涉及到图像特 征图。训练算法可分为两步:提取特征图和更新 滤波器。具体算法如下:
参数说明:训练集X,层数L,循环计算次数E,正则化参数λl
for l=1:L %%循环层数
初始化特征z和滤波器f;
for epoch=1:E %%多次训练直至得到图像的最优特征和滤波器
for i=1:N %%某类图片特征图推断
for t=1:T %% 单张图片上的特征图推断
重建输入并根据式(1)计算与原输入的误差;
ISTA:梯度计算
ISTA:收敛计算
ISTA:根据式(4)和式(5)池化/反池化
end for
end for
更新滤波器;
end for
end for
输出:滤波器f,特征图z,开关变量s
4 实验分析 4.1 实验数据实验数据采用中国电子集团第38研究所获取的海南省陵水县的1个机载X波段单航迹极化SAR数据,图像大小为2 200像素×2 400像素,分辨率为1 m×1 m,该图被分为芒果1、芒果2、芒果3、槟榔果、龙眼、树林、建筑物、农田1、农田2、农田3,共10类。图像的地面实况是实地考察后使用ArcGIS软件进行人工标注。原始图像和地面实况图像如图 4(a)和图 4(b)所示。
4.2 实验参数设置实验中使用4层的反卷积网络模型,其中每层滤波器尺寸为7×7,在训练滤波器时,将根据层数分别进行多次迭代优化,最后选取第四层特征用于分类。具体参数见表 1。
参数名 | 参数值 |
Layers Patch_size Move_size Filter_size Num_feature_maps Epochs Area Num_train_img |
4 32/16/8 32/16/8 7×7 [15,50,100,150,250] [4,6,6,10] 256/1 024 50 |
为了验证该算法的有效性,本文在这个SAR数据上进行了三组对比实验。
对比实验1 基于复Wishart 分布的SAR 图像分类。作为经典的SAR图像分类方法,该方法利用最大似然估计对地物进行分类。最大似然分类器认为每类地物都能够服从某个特定参数的Wishart分布,通过寻找Wishart距离最小的点,进而实现图像分类。
对比实验2 基于纹理特征(Texture)+SVM的SAR图像分类。提取的纹理特征是灰度共生矩阵(gray level co-occurrence matrix,GLCM)特征。
对比实验3 基于Decomposition+SPM(spatial pyramid model)的SAR图像分类。首先对极化SAR数据进行极化分解,得到31维极化特征[13],然后在特征空间建立3层金字塔表达,用于SVM分类。
4.3 实验结果本文利用SPP-DCN算法及三个对比实验在实验数据上进行了分类实验,各类地物的分类准确率如表 2、图 4和图 5所示。可以看出,Wishart的分类准确率最低,而Texture + SVM方法和Decomposition + SPM方法的准确率比较接近,SPP-DCN算法的分类准确率最高。从图 5可以看出,SPP-DCN算法在芒果1、芒果2等地物上取得了较高的分类准确率,且平均加权分类准确率最高。
类别 | Wishart | GLCM+SVM | Decomposition+SPM | SPP-DCN |
芒果1 | 54.58 | 78.39 | 61.33 | 79.27 |
芒果2 | 62.50 | 64.56 | 55.83 | 80.76 |
芒果3 | 76.83 | 82.13 | 86.64 | 86.58 |
槟榔果 | 54.16 | 80.01 | 58.00 | 84.59 |
龙眼 | 57.24 | 65.34 | 59.00 | 73.91 |
树林 | 71.35 | 82.39 | 88.47 | 86.96 |
建筑物 | 75.04 | 71.27 | 84.60 | 77.98 |
农田1 | 47.49 | 58.35 | 81.47 | 67.16 |
农田2 | 50.11 | 23.14 | 51.29 | 30.59 |
农田3 | 49.30 | 15.98 | 49.27 | 30.07 |
平均 | 65.20 | 71.56 | 72.37 | 79.54 |
本文提出的SPP-DCN算法在多层反卷积网络中引入了软概率池化位置变量,用于存放池化操作中特征值的位置,使得多层反卷积网络在重建图像过程中不会存在模糊和抖动,鲁棒性较高。该算法能提取SAR图像的高层次特征,将该特征用于国内首批SAR图像的分类,实验结果验证了该算法的有效性。
[1] | Maitre H. Synthetic Aperture Radar Image Processing[M]. Sun Hong. Beijing: Publishing House of Electronics Industry, 2005 (Maitre H. 合成孔径雷达图像处理[M]. 孙洪.北京: 电子工业出版社, 2005) |
[2] | Wu Xiaohong, Xie Ming, Gan Ke,et al. Feature Extraction and Target Recognition of SAR Images[J]. Journal of Sichuan University(Natural Science Edition), 2007, 44(6): 1 275-1 280(吴晓红,谢明, 干可,等. SAR图像的特征提取与目标识别[J].四川大学学报(自然科学版), 2007, 44(6):1 275-1 280) |
[3] | Wan Peng, Wang Jianguo, Huang Shunji. A Synthesis Method for SAR Image Target Detection[J]. Acta Electronica Sinica, 2001, 29(3):323-325(万朋, 王建国, 黄顺吉. SAR图像目标综合检测方法[J].电子学报, 2001, 29(3): 323-325) |
[4] | Yin Hui. Research on Urban Scene Classification Method Using High Resolution Synthetic Aperture Radar Image Based on Local Feature Representation(殷慧. 基于局部特征表达的高分辨率SAR图像城区场景分类方法研究[D]. 武汉: 武汉大学,2010) |
[5] | He Chu, Liu Ming, Xu Lianyu,et al. A Hierarchical Classification Method Based on Feature Selection and Adaptive Decision Tree for SAR Image[J].Geomatics and Information Science of Wuhan University, 2012, 37(1): 46-49 (何楚, 刘明, 许连玉,等. 利用特征选择自适应决策树的层次SAR图像分类[J]. 武汉大学学报·信息科学版, 2012,37(1):46-49) |
[6] | Huan Ruohong, Zhang Ping, Pan Yun. SAR Target Recognition Using PCA, ICA and Gabor Wavelet Decision Fusion[J]. Journal of Remote Sensing, 2012, 16(2): 262-274(宦若虹, 张平, 潘赟. ICA、PCA和Gabor小波决策融合的SAR目标识别[J]. 遥感学报, 2012, 16(2): 262-274) |
[7] | He Chu, Liu Ming,Feng Qian, et al. PolInSAR Image Classification Based on Compressed Sensing and Multi-scale Pyramid[J]. Acta Automatic Sinica, 2011, 37(7): 820-827(何楚, 刘明, 冯倩,等. 基于多尺度压缩感知金字塔的极化干涉SAR图像分类[J]. 自动化学报, 2011, 37(7): 820-827) |
[8] | Hinton G E, Salakhutdinov R. Reducing the Dimensionality of Data with Neural Networks[J]. Science, 2006, 313(5 786):504-507 |
[9] | Zhang Xiaolei, Wu Ji. Deep Belief Networks Based Voice Activity Detection[J]. IEEE Transactions on Audio, Speech and Language Processing,2013,21(4):697-710 |
[10] | Vincent P, Larochelle H, Lajoie I, et al.Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion[J].Journal of Machine Learning Research, 2010,11:3 371-3 408 |
[11] | Yang J C, Yu K, Gong Y H,et al. Linear Spatial Pyramid Matching Using Sparse Coding for Image Classification[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Miami, USA, 2009 |
[12] | Zeiler M D, Taylor G W, Fergus R. Adaptive Deconvolutional Networks for Mid and High Level Feature Learning[C].IEEE International Conference on Computer Vision (ICCV), Barcelona,Spain,2011 |