-
高光谱遥感由于能够获取大量窄波段的光谱数据而广泛应用于农业、林业、地质勘探和军事检测等领域[1]。影像分类是高光谱影像应用的重要环节,许多经典机器学习方法如支持向量机(support vector machine,SVM)等应用于高光谱遥感分类,取得了较好的效果。但是SVM在分类过程中对参数较敏感,对参数寻优提出了较高要求[2]。近来出现的稀疏表示分类(sparse representation classification,SRC)[3]认为在低维子空间中测试样本可用经由L1范数最小化的训练样本的稀疏线性组合来表示, 进而出现基于高光谱影像光谱及纹理信息的联合SRC方法[4]。但SRC也存在由于稀疏范数的存在计算代价增大的问题,当前虽有算法对其进行了优化,但并不能有效地解决该问题。
类似于SRC,协同表示分类方法(collaborative representation classification,CRC)[5]指出, 相对于“稀疏性”约束训练样本间“竞争性”的表示估计,训练样本间“协同性”的表示估计更有助于提升分类的效果,而且较之SRC利用迭代的方法通过L1范数约束来求解稀疏权重系数,CRC则使用L2范数约束的闭式解来获取权重系数,计算代价大为降低。基于此,出现了改进的高光谱遥感CRC的算法,如基于距离权Tikhonov正则化约束的协同表示算法(nearest regularized subspace,NRS)[6],以及将该方法应用到最邻近算法(local within-class collaborative representation nearest neighbor,LRNN)[7]的方法,在分类稳定性上取得了较好效果。
高光谱遥感数据具有丰富的空间信息,可有效提高CRC的精度和鲁棒性。如联合类内信息协同表示(joint within-class collaborative representation, JWCR)[8]的方法,有效地提升了协同表示的效果;且空间信息和核方法的结合,既有效地利用了空间信息,也解决了高光谱数据的非线性问题[9]。但此类利用窗口形式的空间信息存在异质性问题,针对该问题,可通过构建联合信号矩阵选取邻域像元(nonlocal joint collaborative repre sentation classification, NJCRC)[10],对高光谱数据进行分类。
本文利用切空间协同表示的高光谱分类算法(tangent space collaborative representation classification,TCRC)来探讨切空间的局部流形对高光谱影像分类效果的影响,并提出一种自适应权切空间协同表示分类算法(weighted tangent space collaborative representation classification, WTCRC)。
-
协同表示的基本思想认为测试样本可由训练样本的线性组合表示。假设测试样本y ∈ Rd是一个d维的光谱向量,由C个子类别训练样本组成的共N个训练样本的集合X={xi}i=1N,其中任意xi∈Rd,第m类的训练样本组成的训练样本子集$ X=\left\{ {{x}_{{{m}_{i}}}} \right\}_{i=1}^{{{N}_{m}}} $,m∈{1, 2, …, C},$ \sum\nolimits_{m=1}^{C}{{{N}_{m}}=N} $。协同表示分类算法对测试样本y进行分类时,计算y由训练样本集X的线性表示:
$$ \mathit{\boldsymbol{\tilde y}} = \mathit{\boldsymbol{X\alpha }} $$ (1) 式中,X为大小为d
N的矩阵;α为N 1维的权重系数。第m类的测试样本y应与该类别训练样本子集的表示估计${{\mathit{\boldsymbol{\tilde{y}}}}_{m}}={{\mathit{\boldsymbol{X}}}_{m}}{{\mathit{\boldsymbol{ }}\!\!\alpha\!\!\text{ }}_{m}} $最相近,其中αm为nm
1的向量,为第m类中nm个训练样本的权重系数:$$ {\rm{class}}\left( y \right) = \arg \mathop {\min }\limits_{m = 1,2, \cdots ,C} \left( {\left\| {\mathit{\boldsymbol{y}} - {{\mathit{\boldsymbol{\tilde y}}}_m}} \right\|_2^2} \right) $$ (2) 相对于SRC对α的L1范数正则化惩罚,CRC则提出α的L2范数正则化惩罚,也就是说CRC相对于SRC并不是注重权重系数的“稀疏性”,而是权重系数的“协同性”:
$$ \mathit{\boldsymbol{\alpha }} = \arg \mathop {\min }\limits_{{\mathit{\boldsymbol{\alpha }}^ * }} \left( {\left\| {\mathit{\boldsymbol{y}} - \mathit{\boldsymbol{X}}{\mathit{\boldsymbol{\alpha }}^ * }} \right\|_2^2} \right) + \lambda \left\| {{\mathit{\boldsymbol{\alpha }}^ * }} \right\|_2^2 $$ (3) 求出目标函数的最小值,即求出样本y与$ \mathit{\boldsymbol{\tilde{y}}} $最小残差。α的闭式解为:
$$ \mathit{\boldsymbol{\alpha }} = {\left( {{\mathit{\boldsymbol{X}}^{\rm{T}}}\mathit{\boldsymbol{X}} + \lambda \mathit{\boldsymbol{I}}} \right)^{ - 1}}{\mathit{\boldsymbol{X}}^{\rm{T}}}\mathit{\boldsymbol{y}} $$ (4) 再根据式(2)对测试样本y进行分类。
-
假设在光谱特征空间中存在由参数因子或矢量p产生的变换Tp(y, p),Tp(y, p)在p上是连续可微的,且当p=0时,Tp(y, p)= y,那么测试样本y的变换估计Tp(y, p)则可表示为在p=0上的泰勒展开:
$$ \begin{array}{*{20}{c}} {{T_p}\left( {\mathit{\boldsymbol{y}},p} \right) = {T_p}\left( {\mathit{\boldsymbol{y}},0} \right) + \left( {\partial {T_p}\left( {\mathit{\boldsymbol{y}},p} \right)/\partial p} \right)p + }\\ {o\left( {{{\left\| p \right\|}^2}} \right) \approx \mathit{\boldsymbol{y}} + {T_p}\left( \mathit{\boldsymbol{y}} \right)p} \end{array} $$ (5) 式中,Tp(y, p)=∂Tp(y, p)/∂p为变换空间的基。切空间的不变性体现在切线距离上。切空间中切线距离为两种变换的距离即Tp(y, p)与参数矢量q引起的变换Tp(y, p)之间的距离D(p, q):
$$ D\left( {p,q} \right) = {T_p}\left( {\mathit{\boldsymbol{y}},p} \right) - {T_q}\left( {\mathit{\boldsymbol{y}},q} \right) = T\left( \mathit{\boldsymbol{y}} \right)v $$ (6) 式中,v为系数;T(y)为切空间的基,且T(y)与Tp(y, p)互为对偶基,体现了切空间的不变性和测试样本的局部流形结构。通过构建目标像元与邻域像元的切空间局部流形结构,并且通过系数v自适应地对其进行调节来调整邻域像元对目标像元的贡献度,增加类别间的可区分性。
-
信息冗余会造成地物间区分性的下降。在稀疏表示分类算法中,局部流形结构到测试样本y的距离比传统的稀疏表示的距离要小且鲁棒性更强[11]。将相似的局部流形结构应用到协同表示中也有类似的性质。
Ni等指出测试样本y与其邻域像元的y′∈{yi|i=1, 2, …, n}光谱特征向量之差,也是y的局部切空间流形的估计[11]:
$$ D\left( {\mathit{\boldsymbol{y'}},\mathit{\boldsymbol{y}}} \right) = \mathit{\Delta} \mathit{\boldsymbol{y}} = \left[ {{{y'}_1} - y\;{{y'}_2} - y \cdots {{y'}_n} - y} \right] $$ (7) 结合式(6),Δy作为一种简化切空间的流形估计可以被切空间的基线性表示:
$$ \mathit{\Delta} \mathit{\boldsymbol{y\beta }} = T\left( \mathit{\boldsymbol{y}} \right)v $$ (8) 将切空间的流形估计应用到子空间协同表示算法:
$$ {\rm{class}}\left( y \right) = \arg \mathop {\min }\limits_{m = 1,2, \cdots ,C} \left( {\left\| {\mathit{\boldsymbol{y}} + ,\mathit{\Delta} \mathit{\boldsymbol{y\beta }} - {{\tilde y}_m}} \right\|_2^2} \right) $$ (9) 将原始协同表示模型拓展到切空间,构建切空间的协同表示模型:
$$ \begin{array}{*{20}{c}} {\left( {{\mathit{\boldsymbol{\alpha }}_m},{\mathit{\boldsymbol{\beta }}_m}} \right) = \arg \mathop {\min }\limits_{{\mathit{\boldsymbol{\alpha }}^ * }} \left( {\left\| {\mathit{\boldsymbol{y}} + \mathit{\Delta} \mathit{\boldsymbol{y}}{\mathit{\boldsymbol{\beta }}_m} - {\mathit{\boldsymbol{X}}_m}{\mathit{\boldsymbol{\alpha }}_m}} \right\|_2^2} \right) + }\\ {\lambda \left\| {{\mathit{\boldsymbol{\alpha }}_m}} \right\|_2^2} \end{array} $$ (10) 为使切空间的协同表示模型性能更稳定,解决在求解权重系数时的奇异矩阵求逆问题,本文使用新正则化项||βm||22对切空间协同表示模型进行约束:
$$ \begin{array}{*{20}{c}} {\left( {{\mathit{\boldsymbol{\alpha }}_m},{\mathit{\boldsymbol{\beta }}_m}} \right) = \arg \mathop {\min }\limits_{{\alpha ^ * }{\beta ^ * }} \left( {\left\| {\mathit{\boldsymbol{y}} + \mathit{\Delta} \mathit{\boldsymbol{y}}{\mathit{\boldsymbol{\beta }}_m} - {\mathit{\boldsymbol{X}}_m}{\mathit{\boldsymbol{\alpha }}_m}} \right\|_2^2} \right) + }\\ {\lambda \left\| {{\mathit{\boldsymbol{\alpha }}_m}} \right\|_2^2 + \eta \left\| {{\mathit{\boldsymbol{\beta }}_m}} \right\|_2^2} \end{array} $$ (11) 为求解目标函数的最小值,得到样本y与$ {{\tilde{y}}_{m}} $的最小残差,分别对αm和βm求偏导,可得αm和βm的解析解:
$$ {\mathit{\boldsymbol{\alpha }}_m} = {\left( {\mathit{\boldsymbol{X}}_m^{\rm{T}}{\mathit{\boldsymbol{X}}_m} + \lambda \mathit{\boldsymbol{I}} - \mathit{\boldsymbol{X}}_m^{\rm{T}}\mathit{\boldsymbol{P}}{\mathit{\boldsymbol{X}}_m}} \right)^{ - 1}}\left( {\mathit{\boldsymbol{X}}_m^{\rm{T}}\mathit{\boldsymbol{y}} - \mathit{\boldsymbol{X}}_m^{\rm{T}}\mathit{\boldsymbol{Py}}} \right) $$ (12) $$ {\mathit{\boldsymbol{\beta }}_m} = {\left( {\mathit{\Delta} {\mathit{\boldsymbol{y}}^{\rm{T}}}\mathit{\Delta} \mathit{\boldsymbol{y}} + \eta \mathit{\boldsymbol{I}}} \right)^{ - 1}}\left( {\mathit{\Delta} {\mathit{\boldsymbol{y}}^{\rm{T}}}{\mathit{\boldsymbol{X}}_m}\mathit{\boldsymbol{\alpha }} - \mathit{\Delta} {\mathit{\boldsymbol{y}}^{\rm{T}}}\mathit{\boldsymbol{y}}} \right) $$ (13) 式中,$ \mathit{\boldsymbol{Q}}=\mathit{\Delta} \text{ }\mathit{\boldsymbol{y}}\text{ }{{(\mathit{\Delta} \text{ }\mathit{\boldsymbol{y}}{{~}^{\text{T}}}\mathit{\Delta} \text{ }\mathit{\boldsymbol{y}}+\eta \mathit{\boldsymbol{I}})}^{-1}}\mathit{\Delta} \text{ }\mathit{\boldsymbol{y}}{{~}^{\text{T}}} $。通过αm和βm计算各子类别的表示估计根据式(9)对测试样本y进行分类。
-
研究证明,训练样本与测试样本的相似度越高,在使用该训练样本进行协同表示分类时惩罚越小,即该训练样本对测试样本的线性表示的贡献度越大。相似度用光谱特征向量间的欧氏距离来评价:
$$ {\mathit{\Gamma }_{{X_m}}} = {\rm{diag}}\left( {{{\left\| {\mathit{\boldsymbol{y}} - {\mathit{\boldsymbol{X}}_{{m_i}}}} \right\|}_2}} \right) $$ (14) 类似地,在使用Δy作为局部流形估计时,测试样本的邻域像元与其相似度越高,其对局部流形估计的贡献度越大,即惩罚越小。同样,相似度也用光谱特征向量间的欧氏距离来评价:
$$ {\mathit{\Gamma }_{\mathit{\Delta} y}} = {\rm{diag}}\left( {{{\left\| {\mathit{\boldsymbol{y}} - {{\mathit{\boldsymbol{y'}}}_i}} \right\|}_2}} \right) $$ (15) 由此可以得到自适应权切空间协同表示模型:
$$ \begin{array}{*{20}{c}} {\left( {{\mathit{\boldsymbol{\alpha }}_m},{\mathit{\boldsymbol{\beta }}_m}} \right) = \arg \mathop {\min }\limits_{{\alpha ^ * }{\beta ^ * }} \left( {\left\| {\mathit{\boldsymbol{y}} + \mathit{\Delta} \mathit{\boldsymbol{y}}{\mathit{\boldsymbol{\beta }}_m} - {\mathit{\boldsymbol{X}}_m}{\mathit{\boldsymbol{\alpha }}_m}} \right\|_2^2} \right) + }\\ {\lambda \left\| {{\mathit{\Gamma }_{{X_m}}}{\mathit{\boldsymbol{\alpha }}_m}} \right\|_2^2 + \eta \left\| {{\mathit{\Gamma }_{\mathit{\Delta} y}}{\mathit{\boldsymbol{\beta }}_m}} \right\|_2^2} \end{array} $$ (16) 可得到αm和βm的解析解:
$$ \begin{array}{*{20}{c}} {{\mathit{\boldsymbol{\alpha }}_m} = {{\left( {\mathit{\boldsymbol{X}}_m^{\rm{T}}{\mathit{\boldsymbol{X}}_m} + \lambda {\mathit{\boldsymbol{ \boldsymbol{\varGamma} }}_{\mathit{\boldsymbol{X}}_m^{\rm{T}}}}{\mathit{\boldsymbol{ \boldsymbol{\varGamma} }}_{{\mathit{\boldsymbol{X}}_m}}} - \mathit{\boldsymbol{X}}_m^{\rm{T}}\mathit{\boldsymbol{Q}}{\mathit{\boldsymbol{X}}_m}} \right)}^{ - 1}} \cdot }\\ {\left( {\mathit{\boldsymbol{X}}_m^{\rm{T}}\mathit{\boldsymbol{y}} - \mathit{\boldsymbol{X}}_m^{\rm{T}}\mathit{\boldsymbol{Qy}}} \right)} \end{array} $$ (17) $$ \begin{array}{*{20}{c}} {{\mathit{\boldsymbol{\beta }}_m} = {{\left( {\mathit{\Delta} {\mathit{\boldsymbol{y}}^{\rm{T}}}\mathit{\Delta} \mathit{\boldsymbol{y}} + \eta \mathit{\boldsymbol{ \boldsymbol{\varGamma} }}_{\mathit{\Delta} \mathit{\boldsymbol{y}}}^{\rm{T}}{\mathit{\boldsymbol{ \boldsymbol{\varGamma} }}_{\mathit{\Delta} \mathit{\boldsymbol{y}}}}} \right)}^{ - 1}} \cdot }\\ {\left( {\mathit{\Delta} {\mathit{\boldsymbol{y}}^{\rm{T}}}{\mathit{\boldsymbol{X}}_m}{\mathit{\boldsymbol{\alpha }}_m} - \mathit{\Delta} {\mathit{\boldsymbol{y}}^{\rm{T}}}\mathit{\boldsymbol{y}}} \right)} \end{array} $$ (18) 式中,$ \mathit{\boldsymbol{Q}} = \mathit{\Delta} \mathit{\boldsymbol{y}}{(\mathit{\Delta} {\mathit{\boldsymbol{y}}^{\rm{T}}}\mathit{\Delta} \mathit{\boldsymbol{y}} + \mathit{\boldsymbol{\eta }}{\mathit{\boldsymbol{ \boldsymbol{\varGamma} }}_\mathit{\Delta} }{_\mathit{\boldsymbol{y}}^{\rm{T}}}{\mathit{\boldsymbol{ \boldsymbol{\varGamma} }}_\mathit{\Delta} }_\mathit{\boldsymbol{y}})^{-1}}\mathit{\Delta} {y^{\rm{T}}} $。通过αm和βm计算各子类别的表示估计,根据式(9)对测试βm样本y进行分类。
-
数据1采用由ROSIS(reflective optics system image spectro-meter)传感器获取的意大利University of Pavia(PU)的高光谱影像。该数据空间分辨率约为1.3 m,数据大小为610像素×340像素,光谱范围为0.43~0.86 μm,共计115个波段,在移除一些水吸收波段之后,将剩余的103个波段的光谱数据用于实验分析。该数据共包含9类地物(C1~C9)。
数据2采用的是机载可见红外成像光谱仪(reflective optics system image spectro-meter, AVIRIS)采集的美国印第安纳州Indian Pines(IP)实验区的高光谱遥感数据,该数据光谱范围为0.4~2.45 μm,包括从可见光到近红外的220个波段的光谱数据,去除水吸收波段后利用剩余的200个波段用于实验分析。数据大小为145×145,空间分辨率约为20 m,共包括16类地物类型,为取得足够的训练样本去除7类地物,剩余的9类地物用于实验分析。
两组实验分别采用SVM分类器、CRC算法和相关协同表示分类器(NRS[6]、LRNN [7]、JWCR[8]、JCRC[9]和NJCRC[10])作为对比算法,对两个数据的全波段数据进行对比分析(为保证实验公正性,并未对JWCR、NJCRC的训练样本进行优化)。参数设置采用交叉验证的方法。
-
实验1对PU数据每一类地物随机抽取10、20、30和60个样本作为训练样本进行分类,图 1(a)~1(d)分别为对应训练样本数的TCRC、WTCRC和相关分类算法的总体分类精度随正则化参数λ(10-3~103)的变化图,其中TCRC和WTCRC的正则化参数η设置为10-4。总体而言,8种算法的分类精度随训练样本数的增加而提升;值得注意的是,当训练样本数为60时,CRC的分类精度较前3次实验有所降低。WTCRC的分类效果最理想,特别是当λ小于10时,其分类精度要远好于其他算法。当λ小于0.5时,TCRC分类表现较其他分类算法也较好,但是TCRC对正则化参数λ很敏感,鲁棒性较差。CRC对正则化参数λ最不敏感,但其分类效果较差。从JCRC和NJCRC的表现来看,联合邻域的协同表示算法对正则化参数λ敏感,是这类算法的“通病”,本文提出的自适应权矩阵可以有效地缓解这一问题。
图 1 PU数据集不同样本情况下的8种算法总体精度变化
Figure 1. Eight Algorithms' Overall Accuracy of PU Dataset's Using Different Training Samples
实验2中, 训练样本数、TCR和WTCRC的正则化参数等同实验1。图 2(a)~2(d)分别同图 1(a)~1(d)。可以看出,随着训练样本数的增加,分类精度有明显的提升,且本文提出的TCRC和WTCRC算法在合适参数λ的情况下,分类精度较相关分类算法有较大的提高,特别是WTCRC几乎在全局范围内比其他算法都有更好的分类表现。与PU数据相似的是,当λ小于10时,WTCRC都能提供良好的分类结果,当λ大于10时,WTCRC的精度略有下降;对于TCRC,当λ小于0.1时也能提供不错的分类精度,当λ大于0.1时,TCRC的精度出现明显下降,也说明了TCRC对参数λ较为敏感。值得注意的是,针对IP数据,CRC对参数λ也较为敏感,当λ大于5时,CRC的分类精度也出现了明显的下降。IP数据的结果也说明了WTCRC具有更好的分类性能和鲁棒性。
-
实验1利用PU数据分析TCRC和WTCRC的分类精度随正则化参数η(10-6~ 106)的变化趋势,从各类地物中分别随机选取10、20、30和60个训练样本,正则化参数λ设置为0.1,图 3(a)~3(d)分别为对应训练样本数的TCRC、WTCRC算法的总体分类精度随正则化参数η (10-6~106)的变化图。可以看出,将正则化参数λ设置为0.1进行分类时,两种算法均取得了不错的效果,特别是WTCRC的表现最为优异。从不同数量训练样本的分类表现来看,TCRC和WTCRC的分类精度随正则化参数η的增大而降低,但是从正则化参数η的变化范围较大(10-6~106)的角度来看,精度的变化是可以接受的。
图 3 PU数据集不同样本情况下的两种算法总体精度变化
Figure 3. Two Algorithms' Overall Accuracy of PU Dataset's Using Different Training Samples
实验2利用IP数据进行分析,从不同地物中分别选择10、20、30和60个训练样本进行实验,将正则化参数λ设置为0.01。图 4(a)~4(d)分别同3(a)~3(d),在正则化参数λ为0.01时,WTCRC的分类表现最好。总体而言,WTCRC的分类效果要优于TCRC,并且具有更好的鲁棒性。对于IP数据,TCRC和WTCRC的分类精度随正则化参数η的增加而降低,当η大于10-4时,TCRC的精度有明显的下降(对于WTCRC是0.01),不难发现,对于正则化参数η,WTCRC具有更好的鲁棒性。
-
表 1为实验1中9种算法的分类性能对比结果,从每类地物随机选取60个样本作为训练样本数据,TCRC正则化参数λ设置为0.005,正则化参数η设置为10-6;WTCRC的λ设置为0.1,η设置为10-4。如表 1所示,就总体精度而言,WTCRC分类效果最好,比经典的SVM算法提高约8%,比其他相关分类算法也有不同程度的提高。TCRC也具有较好的分类精度,仅次于WTCRC和JWCR,比经典的SVM算法提高约5%,比原始的CRC提高约12%。就Kappa系数而言,WTCRC的一致性最高,TCRC也具有较高的一致性,CRC最差。图 5(a)、5(b)分别为数据1的假彩色影像和测试样本。图 5(c)~5(k)分别为PU数据的9种算法的分类效果图。不难发现, WTCRC的分类效果最好,TCRC次之,NJCRC效果最差。
表 1 PU数据集60个训练样本分类精度
Table 1. PU Dataset's Overall Accuracy of Different Algorithms Using 60 Training Samples
类 样本 分类算法/(%) 训练 测试 SVM CRC NRS LRNN JWCR JCRC NJCRC TCRC WTCRC C1 60 6 631 80.29 79.94 84.53 84.32 85.24 59.43 13.81 85.10 87.29 C2 60 18 649 84.32 74.58 78.66 78.70 89.50 91.57 85.72 93.42 92.23 C3 60 2 099 82.84 73.27 74.37 76.94 84.56 88.66 74.85 81.23 86.18 C4 60 3 064 92.26 96.54 94.55 97.06 96.67 97.78 96.77 98.24 97.55 C5 60 1 345 99.11 100 99.63 99.78 100 100 100 100 99.85 C6 60 5 029 89.12 79.70 89.18 88.59 94.47 61.66 84.47 79.42 91.31 C7 60 1 330 92.01 66.02 92.23 93.01 94.36 97.97 87.74 94.14 98.05 C8 60 3 682 79.71 70.97 85.71 83.65 91.12 68.17 78.30 87.51 94.62 C9 60 947 99.79 71.38 99.47 99.47 98.63 49.21 0 94.51 100 总体精度 84.06 77.67 83.89 83.96 90.52 80.88 72.66 89.98 92.24 Kappa 80.02 71.50 79.40 79.51 87.67 74.78 64.84 86.77 89.84 图 5 PU数据集地面真实地物分布和算法分类效果
Figure 5. Image of Ground Truth and Algorithms' Classification of PU Dataset
表 2为实验2中9种算法的分类性能对比结果,从每类地物随机选取60个样本作为训练样本,TCRC的正则化参数λ设置为0.001,正则化参数η设置为10-4,WTCRC的λ设置为0.001,η设置为10-6。针对IP数据集,如表 2所示,就总体精度而言,TCRC的分类效果最明显,比SVM提高约14%,比原始的CRC算法提高约17%,WTCRC的效果和TCRC几乎相近,比SVM提高约13%,比CRC算法提高约16%。就Kappa系数而言,也是TCRC一致性最好,WTCRC次之。虽然TCRC在IP数据中取得了不错的效果,但其鲁棒性差,相较而言WTCRC的效果好且鲁棒性更强。图 6(a)、6(b)分别为Indian Pines的假彩色影像和测试样本。图 6(c)~6(k)分别为IP数据的9种算法分类效果图。
表 2 IP数据集60个训练样本分类精度
Table 2. IP Dataset's Overall Accuracy of Different Algorithms Using 60 Training Samples
类 样本 分类算法/(%) 训练 测试 SVM CRC NRS LRNN JWCR JCRC NJCRC TCRC WTCRC C1 60 1 428 65.13 58.40 57.35 59.03 69.92 78.15 75.56 83.26 78.57 C2 60 830 78.83 58.43 62.77 60.00 70.36 45.78 34.22 88.19 88.92 C3 60 483 95.98 87.37 88.41 91.10 93.37 92.75 86.75 95.86 95.45 C4 60 730 95.82 98.08 98.49 99.04 99.04 99.45 87.53 99.59 99.45 C5 60 478 99.28 99.16 99.16 99.16 98.54 100 100 100 100 C6 60 972 73.14 64.92 72.74 75.21 71.81 79.56 62.55 83.64 83.02 C7 60 2 455 58.71 57.47 60.81 57.64 69.57 61.30 61.96 81.51 82.16 C8 60 593 71.86 65.43 68.47 75.51 82.63 94.94 65.94 95.11 94.94 C9 60 1 265 95.93 98.26 98.42 97.47 99.37 99.76 99.45 99.92 99.92 总体精度 75.60 71.52 73.76 73.50 79.82 77.90 72.31 89.41 88.54 Kappa 71.73 63.66 63.66 69.32 76.54 74.48 67.75 87.32 86.03 -
为进一步验证所提出方法的有效性,表 3列出了不同算法的运行时间(仅分类过程)(运行10次的平均时间)。实验基于2.6 GHz CPU,16 GB内存的计算机,采用MATLAB平台运行。从表 3可知,原始的CRC算法具有最快的计算速度,甚至快于SVM。本文提出的TCRC和WTCRC具有较高的复杂度,运算时间较长,但远少于其他联合邻域像元的协同表示分类算法如JCRC和NJCRC,说明采用构建新的目标函数对邻域像元进行约束的方法更有效和高效。
表 3 不同算法在高光谱遥感数据上的运行时间/s
Table 3. Computing Time of Different Algorithms for Hyperspectral Data
方法 PU数据集 IP数据集 SVM 1.91 1.94 CRC 1.08 0.33 NRS 86.61 24.24 LRNN 41.50 15.59 JWCR 54.59 19.90 JCRC 376.43 137.62 NJCRC 1 541.50 121.46 TCRC 161.21 34.36 WTCRC 168.69 55.26 -
本文针对小样本情况下的高光谱遥感影像分类问题,利用测试样本与其邻域像元构成切空间,在切空间中设计高光谱遥感的协同表示分类算法,再使用由样本点间欧氏距离形成的欧氏距离权矩阵来平衡测试样本与其邻域像元和训练样本的影响,提出一种结合切空间的自适应权重协同表示的高光谱分类方法,探讨了自适应局部流形结构对协同表示分类方法的影响;并将提出的两种算法与经典的SVM和其他相关算法进行对比研究,得出以下结论。
本文提出的两种TRC方法的性能随着训练样本数的增加而提升。与原始的CRC分类方法相比,本文提出的两种方法在性能上都有不同程度的提高,总体上说WTCRC的分类表现要优于TCRC,且前者比后者具有更强的鲁棒性,表现更稳定。因此,在协同表示分类方法中利用自适应局部流形结构可以有效提升高光谱遥感数据的分类结果。
但本文方法也有着自身的缺陷,如TCRC对正则化参数λ很敏感,随着λ的增加会出现分类精度骤降的现象。此外,WTCRC的算法复杂度高于CRC和NRS。随着并行计算技术的发展,可以从并行的角度实现TCRC和WTCRC算法,从而加快算法的运算速度。
A Hyperspectral Image Classification Method Based on Collaborative Representation in Tangent Space
-
摘要: 协同表示分类(collaborative representation classification,CRC)算法近年来成为高光谱遥感分类的研究热点。地物类别间区分性不高会严重影响现有CRC算法的性能。流形结构可有效地解决非线性问题,并解决高光谱遥感影像因数据冗余导致的类别间区分性低的问题。提出了一种基于切空间的高光谱遥感影像协同表示分类算法(tangent space collaborative representation classification,TCRC)和一种基于欧氏距离的自适应加权的切空间协同表示分类算法(weighted tangent space collaborative representation classification,WTCRC)。TCRC算法利用测试样本的切平面来估计区域流形,在测试样本的切空间中使用协同表示算法,寻找测试样本在各类训练样本中的最优线性表示估计,并用其最小误差来对测试样本进行分类。在此基础上,利用测试样本邻域像元、训练样本与测试样本的欧氏距离作为权矩阵来自适应调整各样本对测试样本的影响。实验采用ROSIS(reflective optics system image spectro-meter)和AVIRIS(airbone visible infrared imaging spectrometer)高光谱遥感影像对所提出算法的性能进行了评价,结果表明TCRC和WTCRC在分类效果上比CRC有明显的提升,WTCRC相较于TCRC具有更好的分类效果,具有更强鲁棒性。Abstract: Recently collaborative representation classification (CRC) for hyperspectral image analysis attract increasing attentions. The existing related algorithms can't distinguish classes efficiently because of information redundancy of the hyperspectral data. The local manifold structure can significantly enhance distinguishing between the classes and handle the nonlinear problems efficiently. To apply local manifold structure to CRC, a new CRC in tangent space and an adaptive weighted CRC method in tangent space based on the Euclidean distance are proposed. In order to approximate the local manifold of testing samples, the proposed method uses CRC in tangent space to find the best linearly representational approximation between testing sample and training sample. Furthermore, adaptive weighted diagonal matrices are adopted in the proposed method, which constituted by the Euclidean distances between testing samples and training samples, testing samples and neighbor samples respectively. In the experiments, two real hyperspectral images collected by different sensors were adopted for performance evaluations, and experimental results show that TCRC and WTCRC have significantly improved classification performance compared with the state-of-art SVM and other CR-based classifiers.
-
表 1 PU数据集60个训练样本分类精度
Table 1. PU Dataset's Overall Accuracy of Different Algorithms Using 60 Training Samples
类 样本 分类算法/(%) 训练 测试 SVM CRC NRS LRNN JWCR JCRC NJCRC TCRC WTCRC C1 60 6 631 80.29 79.94 84.53 84.32 85.24 59.43 13.81 85.10 87.29 C2 60 18 649 84.32 74.58 78.66 78.70 89.50 91.57 85.72 93.42 92.23 C3 60 2 099 82.84 73.27 74.37 76.94 84.56 88.66 74.85 81.23 86.18 C4 60 3 064 92.26 96.54 94.55 97.06 96.67 97.78 96.77 98.24 97.55 C5 60 1 345 99.11 100 99.63 99.78 100 100 100 100 99.85 C6 60 5 029 89.12 79.70 89.18 88.59 94.47 61.66 84.47 79.42 91.31 C7 60 1 330 92.01 66.02 92.23 93.01 94.36 97.97 87.74 94.14 98.05 C8 60 3 682 79.71 70.97 85.71 83.65 91.12 68.17 78.30 87.51 94.62 C9 60 947 99.79 71.38 99.47 99.47 98.63 49.21 0 94.51 100 总体精度 84.06 77.67 83.89 83.96 90.52 80.88 72.66 89.98 92.24 Kappa 80.02 71.50 79.40 79.51 87.67 74.78 64.84 86.77 89.84 表 2 IP数据集60个训练样本分类精度
Table 2. IP Dataset's Overall Accuracy of Different Algorithms Using 60 Training Samples
类 样本 分类算法/(%) 训练 测试 SVM CRC NRS LRNN JWCR JCRC NJCRC TCRC WTCRC C1 60 1 428 65.13 58.40 57.35 59.03 69.92 78.15 75.56 83.26 78.57 C2 60 830 78.83 58.43 62.77 60.00 70.36 45.78 34.22 88.19 88.92 C3 60 483 95.98 87.37 88.41 91.10 93.37 92.75 86.75 95.86 95.45 C4 60 730 95.82 98.08 98.49 99.04 99.04 99.45 87.53 99.59 99.45 C5 60 478 99.28 99.16 99.16 99.16 98.54 100 100 100 100 C6 60 972 73.14 64.92 72.74 75.21 71.81 79.56 62.55 83.64 83.02 C7 60 2 455 58.71 57.47 60.81 57.64 69.57 61.30 61.96 81.51 82.16 C8 60 593 71.86 65.43 68.47 75.51 82.63 94.94 65.94 95.11 94.94 C9 60 1 265 95.93 98.26 98.42 97.47 99.37 99.76 99.45 99.92 99.92 总体精度 75.60 71.52 73.76 73.50 79.82 77.90 72.31 89.41 88.54 Kappa 71.73 63.66 63.66 69.32 76.54 74.48 67.75 87.32 86.03 表 3 不同算法在高光谱遥感数据上的运行时间/s
Table 3. Computing Time of Different Algorithms for Hyperspectral Data
方法 PU数据集 IP数据集 SVM 1.91 1.94 CRC 1.08 0.33 NRS 86.61 24.24 LRNN 41.50 15.59 JWCR 54.59 19.90 JCRC 376.43 137.62 NJCRC 1 541.50 121.46 TCRC 161.21 34.36 WTCRC 168.69 55.26 -
[1] 童庆禧, 张兵, 郑兰芬.高光谱遥感[M].北京:高等教育出版社, 2006 Tong Qingxi, Zhang Bing, Zheng Lanfen. Hyperspectral Remote Sensing[M]. Beijing:Higher Education Press, 2006 [2] Melgani F, Bruzzone L. Classification of Hyperspectral Remote Sensing Images with Support Vector Machines[J]. IEEE Transactions on Geoscience and Remote Sensing, 2004, 42(8):1778-1790 doi: 10.1109/TGRS.2004.831865 [3] Wright J, Yang A Y, Ganesh A, et al. Robust Face Recognition via Sparse Representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(2):210-227 doi: 10.1109/TPAMI.2008.79 [4] Chen Y, Nasrabadi N M, Tran T D. Hyper-spectral Image Classification Using Dictionary-Based Sparse Representation[J]. IEEE Transactions on Geoscience and Remote Sensing, 2011, 49(10):3973-3985 doi: 10.1109/TGRS.2011.2129595 [5] Zhang L, Yang M, Feng X. Sparse Representation or Collaborative Representation: Which Helps Face Recognition?[C]. IEEE International Conference on Computer Vision, Barcelona, Spain, 2011 [6] Li W, Tramel E W, Prasad S, et al. Nearest Regularized Subspace for Hyperspectral Classification[J], IEEE Transactions on Geoscience and Remote Sensing, 2014, 52(1):477-489 doi: 10.1109/TGRS.2013.2241773 [7] Li W, Du Q, Zhang F, et al. Collaborative Representation Based Nearest Neighbor Classifier for Hyperspectral Imagery[J]. IEEE Geoscience and Remote Sensing Letters, 2015, 12(2):389-393 doi: 10.1109/LGRS.2014.2343956 [8] Li W, Du Q. Joint Within-Class Collaborative Representation for Hyper Spectral Image Classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2014, 7(6):2200-2208 doi: 10.1109/JSTARS.2014.2306956 [9] Li J, Zhang H, Zhang L. Column-Generation Kernel Nonlocal Joint Collaborative Representation for Hyperspectral Image Classification[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2014, 94:25-36 doi: 10.1016/j.isprsjprs.2014.04.014 [10] Li J, Zhang H, Huang Y, et al. Hyperspectral Image Classification by Nonlocal Joint Collaborative Representation with a Locally Adaptive Dictionary[J]. IEEE Transactions on Geoscience and Remote Sensing, 2014, 52(6):3707-3719 doi: 10.1109/TGRS.2013.2274875 [11] Ni D, Ma H. Classification of Hyperspectral Image Based on Sparse Representation in Tangent Space[J]. IEEE Geoscience and Remote Sensing Letters, 2015, 12(4):786-790 doi: 10.1109/LGRS.2014.2362512 -