利用视觉注意模型和局部特征的遥感影像检索方法

文章信息

周维勋, 邵振峰, 侯继虎

ZHOU Weixun, SHAO Zhenfeng, HOU Jihu

Remote Sensing Imagery Retrieval Method Based on Visual Attention Model and Local Features

武汉大学学报·信息科学版, 2015, 40(1): 46-52

Geomatics and Information Science of Wuhan University, 2015, 40(1): 46-52

http://dx.doi.org/10.13203/j.whugis20130130

文章历史

收稿日期：2013-05-13

Abstract

PDF

Figures

Tables

周维勋, 邵振峰, 侯继虎. 利用视觉注意模型和局部特征的遥感影像检索方法[J]. 武汉大学学报·信息科学版, 2015, 40(1): 46-52. 复制到剪切板

ZHOU Weixun, SHAO Zhenfeng, HOU Jihu. Remote Sensing Imagery Retrieval Method Based on Visual Attention Model and Local Features[J]. Geomatics and Information Science of Wuhan University, 2015, 40(1): 46-52. 复制到剪切板

利用视觉注意模型和局部特征的遥感影像检索方法

周维勋, 邵振峰, 侯继虎

武汉大学测绘遥感信息工程国家重点实验室, 湖北武汉, 430079

收稿日期:2013-05-13

基金项目：国家自然科学基金资助项目(61172174);教育部新世纪优秀人才基金资助项目(NCET-12-0426);湖北省自然科学基金杰青资助项目(2013CFA024)。.

第一作者:周维勋,硕士,主要从事遥感图像处理与影像检索研究。E-mail: weixunzhou1990@whu.edu.cn

摘要：利用尺度不变特征变换(scale invariant feature transform,SIFT)算子直接提取遥感影像局部特征进行检索时存在关键点数目多、特征维数高等问题,因此,本文利用视觉注意模型,根据目标显著性的大小从影像上提取显著目标区域,并采用K-means聚类方法对提取的SIFT局部特征进行聚类,得到用于检索的特征向量。实验结果表明,该方法不仅符合人眼的视觉特性,且在降低SIFT关键点数目和特征维数的同时提高了检索精度和检索效率。

关键词： SIFT 视觉注意模型目标显著性局部特征 K-means聚类

Remote Sensing Imagery Retrieval Method Based on Visual Attention Model and Local Features

ZHOU Weixun, SHAO Zhenfeng, HOU Jihu

State key Laboratory for Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University, Wuhan 430079, China

Abstract:SIFT descriptor is widely used for local feature extraction. However, some problems such as large numbers of extracted key points and its high dimension appear when using SIFT to extract local features from remote sensing imagery directly. To solve these problems and improve the retrieval results, we use a visual attention model to extract objects using their saliency from remote sensing images. The visual attention model is used to extract salient objects through their saliency from remote sensing images firstly, then we use a K-means algorithm to cluster local features, these results are then used as feature vectors for similarity measures. Some experimental results show that our method not only decreases the number of key points and the dimension of local features, but also improves retrieval results at the same time. It also accords with the human visual system.

Key words: SIFT visual attention model object saliency local features K-means

随着航空航天技术、传感器技术、计算机技术以及数据库等技术的快速发展，可获取的遥感影像数据急剧增长，然而现阶段影像数据的处理和分析能力有限，使得遥感影像数据使用效率低下。缺乏对海量遥感影像数据的有效组织和管理方法已经成为制约遥感影像数据应用的瓶颈，基于内容的遥感影像检索技术是解决这一问题的有效途径^[1]。

传统的影像检索方法常提取影像的颜色、纹理等低层特征进行相似性度量^{[2, 3, 4]}，但遥感影像具有不同于自然图像的复杂性特点，众多地物有序或无序地叠加在一起导致传统的基于颜色、纹理等全局特征的影像检索方法往往难以取得满意的检索结果。尺度不变特征变换(scale invariant feature transform,SIFT)算子由于具有旋转不变性、尺度不变性以及仿射不变性等优点，在自然图像检索的研究中已受到学者的重视^{[5, 6, 7]}。文献^{[8, 9]}用SIFT算子提取遥感影像的局部特征用于检索，并与颜色直方图、Gabor纹理等方法进行了比较。实验表明，利用SIFT提取的局部特征能够很好地描述影像内容，在遥感影像检索中表现出一定的优越性，但仍存在两个方面的问题：一方面，直接利用SIFT提取影像的局部特征时会检测出大量的关键点，并且每个关键点是用128维的向量表示的，由此导致关键点数目多、特征维数高两个问题；另一方面，利用SIFT检测出的关键点分布在目标的边缘以及角点等位置，而影像上能引起人眼注意的往往是特定的目标(显著目标)，其他称为背景。因此，利用SIFT直接在影像上提取局部特征不仅会产生大量多余的关键点，而且不符合人眼视觉特性。

针对以上两个问题，本文利用符合人眼视觉特性的视觉注意模型，根据目标的显著性大小分割出包含显著目标的区域，然后用SIFT提取其局部特征。这样就在很大程度上减少了检测出的关键点，提高了局部特征提取效率，之后采用K-means聚类算法对SIFT检测出的关键点进行聚类，得到一个一维的特征向量，大大降低了特征维数。

1 视觉注意模型

文献^[10]从人眼视觉的角度出发提出了一个视觉信息驱动的视觉注意模型(Itti模型)，文献^{[11, 12, 13]}在Itti模型的基础上进行改进，并提出了自己的视觉注意模型。作为最经典的视觉模型之一，Itti模型和其他几种视觉注意模型被用于自然图像的检索并取得了不错的效果,文献^[14]基于图像全局对比度的差异大小定义显著性，实现了显著区域的检测，并很好地提取出了显著目标。遥感影像的复杂性使得诸如文献^[14]的方法并不实用。因此，本文采用效果相对较好的Itti视觉注意模型计算遥感影像目标的显著性，Itti模型的结构如图 1所示。Itti模型的基本思想是输入一幅RGB图像，通过构建不同尺度的高斯金字塔得到颜色、亮度以及方向特征；然后，通过中央周边算子分别得到颜色、亮度以及方向显著图；最后，将三种特征的显著图融合得到最终的显著图。

图 1 Itti模型结构图 Fig. 1 General Architecture of Itti Model

图选项

Itti模型通过构造不同尺度的高斯金字塔得到颜色、亮度以及方向三种特征^[10]。对于一幅RGB图像，其亮度特征I如式(1)所示：

其中，r、g、b为三个颜色分量。计算颜色特征时不是直接利用三个颜色分量，而是通过变换得到红、绿、蓝、黄4个颜色通道R、G、B、Y，颜色特征如式(2)所示：

其中，R=r－(g+b)/2；G=g－(r+b)/2；B=b－(r+g)/2；Y=(r+g)/2－|r－g|/2－b；c、s分别代表金字塔中央尺度和周边尺度。方向特征的计算是通过构造不同尺度和方向的Gabor滤波器得到的，如式(3)所示：

其中，θ为Gabor滤波器的方向；Θ代表“中央-周边”尺度算子。

2 显著目标和SIFT局部特征提取

显著目标和SIFT局部特征提取流程如图 2所示。首先，利用Itti模型计算影像库各图像的显著图。显著图是一幅灰度图像，图像上亮的区域表示此处的显著性高，暗的区域表示此处的显著性低。将各图像的显著图二值化并与原图进行“掩膜”运算提取显著目标。文献^[15]结合Itti模型和Stentiford模型，分别对两个模型产生的显著图二值化，并与原图进行“掩膜”运算，很好地提取出显著区域。再次，根据提取出的显著目标用SIFT算子提取目标的局部特征，每幅图像用K×128维的数组表示，数组的每一行表示一个128维的关键点特征向量，其中，K为检测出的显著目标的关键点数目。最后，因为SIFT提取的局部特征维数高且无法直接进行相似性度量，本文按照文本检索里的BOVW模型^[16]采用K-means聚类算法对每幅图像的关键点特征向量进行聚类，并统计每类的关键点数目。经过聚类，K×128维的数组转化成 1×N的向量，其中，N为聚类中心的数目。

图 2 显著目标和SIFT局部特征提取流程 Fig. 2 Flow of Salient Objects and SIFT Features Extraction

图选项

2.1 显著目标提取

本文采用的实验数据来源于分辨率为30 cm的美国几大城市的航空影像，按照256×256尺寸从各航片上裁剪下来得到的包含21类地物的影像库，其中，每类地物包含100幅影像。本文实验从中选取了飞机、密集居民区、高速公路、港口、十字路口以及停车场 6类地物，其中，飞机部分图像以及相应的显著目标和Itti模型得到的显著图如图 3所示。遥感影像检索往往需要根据实验目的和采用的方法建立自己的影像库，影像库构建合理与否直接关系到检索结果的好坏。为了更好地证明本文方法具有查准率高、检索效率高等优点，本文选用了文献^[9]公布的影像库。

图 3 飞机图像及相应的显著目标和显著图 Fig. 3 Airplane Images and Corresponding Salient Objects and Saliency Maps

图选项

从图 3的显著目标提取结果可以看出，对于目标相对单一的地物，显著目标提取结果较好。显著区域的检测和提取是计算机视觉领域一项常见的工作，国外很多学者也在这方面做了很多研究^{[16, 17, 18]}。但是，这些方法都是针对目标单一、背景简单的自然图像，且所提出的方法只是在某一图像库上表现出不错的效果，同样的方法用在其他图像库上往往效果不尽如人意。文献^[19]提出利用多尺度的SLIC分割方法提取航空影像的显著区域，同样也只是针对特定的影像。相比之下，尽管不能完整地提取出显著目标，但采用视觉注意模型基于目标显著性的显著目标提取方法适用性更好，且提取出的目标区域能够引起人眼注意，符合人眼的视觉特性。

2.2 SIFT局部特征提取

SIFT是文献^[20]提出的局部特征描述算子，该算子具有尺度、平移和旋转不变性，且对亮度变化和仿射变换具有稳健性。SIFT算子在空间尺度中寻找极值点，并提取极值点的位置、尺度、旋转不变量。从图 3中可以看出，对于256×256大小的图像，提取得到的显著目标区域相对较小，用SIFT算子进行局部特征提取仍然可以提取出很多关键点以保证检索的需要。

SIFT局部特征提取可以分为以下几步：①用SIFT算子提取6类地物相应的显著目标的局部特征。②每幅显著目标图提取得到的局部特征为K×128维的数组，其中，K表示显著目标图上提取的关键点数目。③用K-means聚类算法将每幅显著目标图的K×128维的局部特征进行聚类，得到1×k维的特征向量，其中，k为聚类中心的数目。本文实验中通过多组实验最终选取k=10作为最终的聚类中心数目。通过聚类，每幅图像最终用1×k维的特征向量进行描述，大大降低了特征维数。

局部特征提取是影像检索中很关键的一步，直接关系到最终影像检索的效果。本文方法旨在利用视觉模型，通过显著性的大小提取出最能引起人眼注意的区域(即显著目标)，进而提取显著目标的局部特征，作为整幅图像的特征描述进行检索。

3 影像检索流程与实验方案

遥感影像检索的流程大致可以分为影像库构建、特征提取、相似性度量三个步骤。结合显著目标和SIFT局部特征提取流程图(见图 2)，本文影像检索具体流程为：① 利用Itti视觉注意模型计算影像库中影像的显著图，并将二值化显著图与相应的原影像进行掩膜运算提取出显著目标；② 利用SIFT算子提取影像显著目标的关键点，并用K-means算法将关键点聚类(聚类中心为10)，得到描述显著目标的特征向量；③ 根据预设的相似性度量准则(本文采用欧氏距离)，计算待查询影像和影像库中所有影像的相似性，并按相似性大小返回相似影像。

实验比较了4种方法的检索效果，包括颜色直方图和小波纹理两种传统方法，以及S_Origin和S_Saliency两种基于影像局部特征的检索方法。S_Origin是利用SIFT算子直接从原影像提取的局部特征，而S_Saliency是利用SIFT算子从影像显著目标中提取的局部特征。其中，S_Saliency是本文提出的方法，其他几种方法作为比较。

为了客观地评价本文方法的检索效果，实验采用查准率、检索效率以及查准率-查全率曲线图对实验结果进行分析，其中，查准率(precision)和查全率(recall)的计算公式为：

其中，M表示返回的影像数目；N表示返回影像中与查询影像相似的影像数目；P表示影像库中与查询影像相似的影像数目。查准率-查全率曲线图是以不同返回影像数时的查准率和查全率作的曲线图，曲线越靠上表明方法越好。

4 实验与分析

实验选取6类地物共600幅航空影像作为遥感影像检索的图像库，从图像库中检索飞机、密集居民区、港口、停车场4类地物目标。由于每类地物共有100幅影像，因此，实验过程中在每类地物中随机选取20幅作为待查询影像，统计平均查准率及平均检索时间作为评价检索结果的量化指标。

将本文方法与颜色直方图、小波纹理、S_Origin三种方法进行了比较，平均查准率和检索时间如表 1所示。

表 1 检索结果评价 Tab. 1 Evaluation of Retrieval Results by Four Methods

评价指标	颜色直方图	小波纹理	S_Origin	S_Saliency
查准率	0.293 3	0.333 1	0.3018	0.409 3
时间/s	0.302 2	0.273 3	0.257 6	0.257 6

表选项

从表 1中可以看出，本文提出的方法S_Saliency对4类地物的平均查准率高于另外三种方法，且检索效率比颜色直方图和小波纹理高，由于特征维数相同，S_Origin和S_Saliency检索时间相同。

S_Origin方法直接利用SIFT算子提取图像的局部特征，该方法检测出大量的关键点，不仅降低了SIFT局部特征提取的效率，也给后续的K-means聚类以及相似性度量带来维数过高以及效率低下等问题。在影像检索中，大量的关键点确保了检索的稳健性，然而并非关键点数目越多越好。S_Saliency以此为出发点，通过显著性大小提取显著目标，在降低关键点数目的同时保证检索的精度。表 2为4类地物检测出的平均的关键点数目，其中，每类地物随机取20幅影像，表 2中的关键点为20幅影像关键点数目的平均值。

表 2 S_Origin和S_Saliency提取的关键点数目比较 Tab. 2 Comparisions of the Number of Key Points Extracted by S_Origin and S_Saliency

	地物	S_Origin	S_Saliency
关键点数目	飞机	353.25	155.2
	居民区	1 120.55	309.45
	港口	956.85	502.5
	停车场	1 319.95	652.95

表选项

从表 2中可以看出，用SIFT算子从显著目标影像上提取的关键点数目远远少于直接在原目标影像上提取的关键点数目。

本文方法对飞机的检索实例如图 4所示，图 4中影像为根据相似性大小返回的前30幅影像，且左上角第一幅影像也是待查询影像，即待查询影像本身也作为相似影像返回。

图 4 飞机检索结果图 Fig. 4 Retrieval Results of Airplane by S_Saliency

图选项

从图 4中可以看出，本文提出的方法很好地检索出了与待查询影像相似的影像，且检索精度较高。虽然根据相似性大小返回的前30幅影像中存在其他类别的影像，但是总体上看前30幅影像中相似的影像占绝大多数。

为了更直观地比较4种方法对4类地物目标的检索性能以及4种方法的平均检索性能，每类地物随机选取20幅影像作为检索影像(为了保证客观性，20幅检索图像与上文实验相同)，通过设置不同的返回影像数目(20、40、60、80、100)计算4类地物相应的平均查准率和平均查全率，绘制precision-recall曲线图如图 5所示，其中，图 5 (a)、5(b)、5(c)、5(d)、5(e)分别表示4种方法对飞机、密集居民区、港口、停车场的检索效果以及4种方法的平均检索效果。

图 5 查准率—查全率曲线图 Fig. 5 Precision-Recall Curves

图选项

通过比较分析，从表 1、表 2以及图 5中可以得出：

1)本文方法S_Saliency对飞机和密集居民区两类地物检索效果最好，对港口以及停车场两类地物检索效果相对较差。港口由于背景为深蓝色，表现为明显的颜色特征，因此用颜色直方图检索效果最好；停车场由于表现出明显的纹理特征，因此用小波纹理检索效果最好。

2)随着返回的影像数目的增加，本文方法相比其他几种方法平均检索效果更好。

3)本文方法S_Saliency提取的关键点数目远远少于S_Origin方法提取的关键点数目，并且特征的维数也大大降低。

表 1中颜色直方图、小波纹理以及S_Origin三种方法平均查准率偏低的原因可从以下几个方面分析：①从图 3给出的部分示例影像可以看出，飞机这类地物影像的背景颜色并不统一，利用颜色特征检索时效果不理想，见图 5(a)；②密集居民区和停车场两类地物影像纹理信息丰富，而飞机和港口纹理特征并不明显；③S_Origin方法提取影像的局部特征进行检索，但是密集居民区和港口两类地物影像中背景的关键点也被检测出来，多余的关键点会干扰检索结果。

5 结语

本文提出了一种利用视觉模型和局部特征的遥感影像检索方法，通过目标显著性的大小分割出最能引起人眼注意的目标区域，然后利用SIFT提取显著目标的局部特征。实验结果表明，和传统的基于颜色直方图和小波纹理的检索方法相比，本文方法查准率和检索效率更高；和利用SIFT直接提取目标影像局部特征的检索方法相比，本文方法不仅降低了SIFT检测出的关键点数目、提高了局部特征提取效率，而且查准率更高。因此，利用视觉模型和局部特征的检索方法为遥感影像检索提供了一个新的研究思路。

参考文献

[1]	Cheng Qimin. Research on Key Technologies for Content-based Retrieval from Remote Sensing Image Database[D]. Beijing: Institute of Remote Sensing Application, Chinese Academy of Sciences, 2004 (程起敏.基于内容的遥感影像库检索关键技术研究[D].北京:中国科学院遥感应用研究所,2004)

[2]	Cheng Qimin, Yang Chongjun, Shao Zhenfeng. Progressive Texture Image Retrieval Based on M-Band Wavelet Features[J]. Geomatics and Information Science of Wuhan University, 2005, 30(6): 521-524 (程起敏, 杨崇俊,邵振峰.基于多进制小波变换的渐进式纹理图像检索[J]. 武汉大学学报·信息科学版,2005, 30(6):521-524)

[3]	Zhu Xianqiang, Huang Jincai, Shao Zhenfeng. A New Approach for Interesting Local Saliency Features Definition and Its Application to Remote Sensing Imagery Retrieval[J]. Geomatics and Information Science of Wuhan University, 2013, 38(6):652-655(朱先强,黄金才,邵振峰.一种定义感兴趣局部显著特征的新方法及其在遥感影像检索中的应用[J]. 武汉大学学报·信息科学版,2013,38(6):652-655)

[4]	Wang M, Wan Q M, Gu L B, et al. Remote-sensing Image Retrieval by Combining Image Visual and Semantic Features [J]. International Journal of Remote Sensing, 2013, 34(12): 4 200-4 223

[5]	Wu Ruihang, Li Shaozi, Zou Fengmei. Image Retrieval Based on SIFT Features [J]. Application Research of Computers, 2008, 25(2):478-481(吴锐航,李绍滋,邹丰美.基于SIFT特征的图像检索[J].计算机应用研究, 2008,25(2):478-481)

[6]	Huang S L, Cai C, Zhang Y. Wood Image Retrieval Using SIFT Descriptor[C]. IEEE International Conference on Computational Intelligence and Software Engineering, Wuhan, China, 2009

[7]	Gao K, Lin S, Zhang Y, et al. Attention Model Based SIFT Keypoints Filtration for Image Retrieval[C]. The Seventh IEEE/ACIS International Conference on Computer and Information Science, Portland, USA, 2008

[8]	Newsam S, Yang Y. Comparing Global and Interest Point Descriptors for Similarity Retrieval in Remote Sensed Imagery[C]. The 15th International Symposium on Advances in Geographic Information Systems, Seattle, USA, 2007

[9]	Newsam S, Yang Y. Geographic Image Retrieval Using Local Invariant Features [J]. IEEE Transactions on Geoscience and Remote Sensing, 2013, 51(2):818-832

[10]	Itti L, Koch C, Niebur E. A Model of Saliency-based Visual Attention for Rapid Scene Analysis [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(11): 1 254-1 259

[11]	Bamidele A, Stentiford F W M, Morphett J. An Attention-Based Approach to Content-Based Image Retrieval [J]. BT Technology Journal, 2004, 22(3):151-160

[12]	Harel J, Koch C, Perona P. Graph-Based Visual Saliency [J]. Advances in Neural Information Processing Systems, 2007, 19:545-552

[13]	Walther D, Koch C. Modeling Attention to Salient Proto-objects [J]. Neural Networks, 2006, 19: 1 395-1 407

[14]	Cheng M M, Zhang G X, Mitra N J, et al. Global Contrast Based Salient Region Detection [C]. IEEE Conference on Computer Vision and Pattern Recognition, Providence, USA, 2011

[15]	Marques O, Mayron L M, Borba G B, et al. An Attention-Driven Model for Grouping Similar Images with Image Retrieval Applications [J]. EURASIP Journal on Advances in Signal Processing, 2007(1):1-17

[16]	Sivic J, Zisserman A. Video Google: A Text Retrieval Approach to Object Matching in Videos[C]. IEEE International Conference on Computer Vision, Nice, France, 2003

[17]	Achanta R, Estrada F, Wils P, et al. Salient Region Detection and Segmentation[M]. Berlin, Heidelberg:Springer, 2008

[18]	Achanta R, Susstrunk S. Saliency Detection for Content-aware Image Resizing[C]. IEEE International Conference on Image Processing, Cairo, 2009

[19]	Sahli S, Lavigne D A, Sheng Y. Saliency Detection in Aerial Imagery Using Multi-Scale SLIC Segmentation[C]. Airborne Intelligence, Surveillance, Reconnaissance (ISR) Systems and Applications IX, Baltimore, USA, 2012

[20]	Lowe D G. Distinctive Image Features from Scale-Invariant Keypoints [J]. International Journal of Computer Vision, 2004, 60(2):91-110