留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

采用交替K-奇异值分解字典训练的图像超分辨率算法

徐健 常志国 张小丹

徐健, 常志国, 张小丹. 采用交替K-奇异值分解字典训练的图像超分辨率算法[J]. 武汉大学学报 ● 信息科学版, 2017, 42(8): 1137-1143. doi: 10.13203/j.whugis20150095
引用本文: 徐健, 常志国, 张小丹. 采用交替K-奇异值分解字典训练的图像超分辨率算法[J]. 武汉大学学报 ● 信息科学版, 2017, 42(8): 1137-1143. doi: 10.13203/j.whugis20150095
XU Jian, CHANG Zhiguo, ZHANG Xiaodan. Image Super-resolution Based on Alternate K-Singular Value Decomposition[J]. Geomatics and Information Science of Wuhan University, 2017, 42(8): 1137-1143. doi: 10.13203/j.whugis20150095
Citation: XU Jian, CHANG Zhiguo, ZHANG Xiaodan. Image Super-resolution Based on Alternate K-Singular Value Decomposition[J]. Geomatics and Information Science of Wuhan University, 2017, 42(8): 1137-1143. doi: 10.13203/j.whugis20150095

采用交替K-奇异值分解字典训练的图像超分辨率算法

doi: 10.13203/j.whugis20150095
基金项目: 

国家自然科学基金 61601362

国家自然科学基金 61571361

国家自然科学基金 61671377

国家自然科学基金 41504115

陕西省国际合作与交流计划 2015KW-005

详细信息
    作者简介:

    徐健, 博士, 副教授, 主要研究方向为图像超分辨率重建。xujian_paper@163.com

    通讯作者: 常志国, 博士, 副教授。chang-zg@126.com
  • 中图分类号: P237

Image Super-resolution Based on Alternate K-Singular Value Decomposition

Funds: 

The National Natural Science Foundation of China 61601362

The National Natural Science Foundation of China 61571361

The National Natural Science Foundation of China 61671377

The National Natural Science Foundation of China 41504115

Shaanxi International Cooperation and Exchange Plan 2015KW-005

More Information
    Author Bio:

    XU Jian, PhD, associated professor, specializes in image super-resolution. E-mail: xujian_paper@163.com

    Corresponding author: CHANG Zhiguo, PhD, associated professor. E-mail: chang-zg@126.com
  • 摘要: 采用稀疏表示的图像超分辨率算法中,双字典训练算法与字典的细节恢复能力相关,针对已有双字典训练算法使字典缺乏高频细节信息的特点,提出了一种交替K-奇异值分解字典训练算法。该算法分为训练和测试部分。在训练部分每次字典更新都采用奇异值分解所得到的向量对低高频样本块进行最佳低秩逼近,使得低高频样本块随着迭代次数的增加逐渐取得相同或者相似的稀疏表示系数。在测试过程中,测试低频样本块可以利用低频字典取得的稀疏表示系数与高频字典相乘得到高频细节信息。实验表明,与目前已有算法相比,该算法能够得到高频细节较丰富的图像,平均峰值信噪提高0.3 dB以上,结构相似度提高0.01左右。
  • 图  1  算法流程图

    Figure  1.  Framework of the Proposed Algorithm

    图  2  “鹦鹉”图对比实验结果(3倍)

    Figure  2.  Comparison of Parrot Images(Triple)

    表  1  3倍放大时的PSNR(dB)和SSIM值

    Table  1.   PSNR (dB) and SSIM Values of Magnification(Triple)

    测试图 双三次 SRSC 全变分 原地回归 Zeyde ANR SPM LRNE 本文
    帽子 29.197 0 29.967 0 30.210 0 29.568 0 30.432 0 30.100 0 29.833 0 29.976 0 30.675 0
    0.828 1 0.847 0 0.852 2 0.837 6 0.856 8 0.863 7 0.848 0 0.842 8 0.870 4
    树叶 23.452 0 24.558 0 25.011 0 23.921 0 25.283 0 23.117 0 24.777 0 24.359 0 25.673 0
    0.802 6 0.834 8 0.868 4 0.832 7 0.873 5 0.829 5 0.849 8 0.847 2 0.878 3
    摩托 22.808 0 23.642 0 23.760 0 23.175 0 23.847 0 23.243 0 23.484 0 23.340 0 24.057 0
    0.704 0 0.750 6 0.763 9 0.732 4 0.765 5 0.748 1 0.743 0 0.729 0 0.780 2
    植物 31.085 0 31.966 0 32.334 0 31.577 0 32.517 0 30.373 0 31.893 0 31.805 0 32.833 0
    0.868 1 0.886 5 0.894 7 0.880 8 0.887 9 0.881 3 0.886 5 0.883 0 0.905 3
    鹦鹉 28.096 0 29.179 0 29.248 0 28.752 0 29.423 0 28.806 0 28.904 0 28.590 0 29.544 0
    0.881 9 0.897 9 0.900 4 0.891 3 0.901 2 0.902 8 0.895 1 0.889 0 0.906 3
    花朵 27.456 0 28.192 0 28.607 0 27.883 0 28.575 0 27.703 0 28.171 0 27.889 0 28.877 0
    0.787 9 0.817 2 0.831 2 0.808 8 0.832 4 0.818 6 0.815 8 0.803 1 0.834 6
    平均值 27.367 0 28.301 0 28.497 9 27.831 3 28.763 0 27.545 0 28.196 0 28.050 0 29.054 0
    0.811 5 0.838 8 0.849 8 0.830 4 0.854 3 0.840 9 0.838 5 0.832 9 0.864 6
    下载: 导出CSV
  • [1] 魏士俨, 申振荣, 张烁, 等.月球车图像超分辨率重建算法[J].武汉大学学报·信息科学版, 2013, 38(4):436-439 http://ch.whu.edu.cn/CN/abstract/abstract765.shtml

    Wei Shiyan, Shen Zhenrong, Zhang Shuo, et al. Moon Rover Image Super-Resolution Reconstruction Algorithm[J]. Geomatics and Information Science of Wuhan University, 2013, 38(4):436-439 http://ch.whu.edu.cn/CN/abstract/abstract765.shtml
    [2] Chen X, Qi C. Low-Rank Neighbor Embedding for Single Image Super-Resolution[J].IEEE Signal Processing Letters, 2014, 21(1):79-82 doi:  10.1109/LSP.2013.2286417
    [3] Zeyde R, Protter M, Elad M. On Single Image Scale-Up Using Sparse-Representation[J].Lecture Notes in Computer Science, 2010, 6920(1):711-730 http://wwwvm.cs.technion.ac.il/users/wwwb/cgi-bin/tr-get.cgi/2010/CS/CS-2010-12.pdf
    [4] Peleg T, Elad M. A Statistical Prediction Model Based on Sparse Representations for Single Image Super-Resolution[J].IEEE Transactions on Image Processing, 2014, 23(6):2569-2582 doi:  10.1109/TIP.2014.2305844
    [5] Purkait P, Pal N R, Chanda B. A Fuzzy-Rule-Based Approach for Single Frame Super Resolution[J].IEEE Transactions on Image Processing, 2014, 23(5):2277-2290 doi:  10.1109/TIP.2014.2312289
    [6] Yang J, Wang Z, Lin Z, et al. Coupled Dictionary Training for Image Super-resolution[J]. IEEE Transactions on Image Processing, 2012, 21(8):3467-3478 doi:  10.1109/TIP.2012.2192127
    [7] Wang S, Zhang L, Liang Y, et al. Semi-Coupled-Dictionary Learning with Applications to Image Super-resolution and Photo-Sketch Synthesis[C]. IEEE Conference on Computer Vision and Pattern Recognition, Providence, RI, USA, 2012
    [8] He Li, Qi Hairong, Zaretzki R. Beta Process Joint Dictionary Learning for Coupled Feature Spaces with Application to Single Image Super-resolution[C]. IEEE Conference on Computer Vision and Pattern Recognition, Portland, Oregon, USA, 2013
    [9] Timofte R, De Smet V, Van Gool L. A+:Adjusted Anchored Neighborhood Regression for Fast Super-Resolution[C].Asian Conference of Computer Vision, Singapore City, Singapore, 2014
    [10] Glasner D, Bagon S, Irani M. Super-resolution from a Single Image[C]. IEEE International Conference on Computer Vision, Kyoto, Japan, 2009
    [11] Zhang K, Gao X, Tao D, et al. Single Image Super-resolution with Multiscale Similarity Learning[J].IEEE Transactions on Neural Networks and Learning Systems, 2013, 24(10):1648-1659 doi:  10.1109/TNNLS.2013.2262001
    [12] Irani M, Peleg S. Improving Resolution by Image Registration[J]. CVGIP:Graphical Models and Image Processing, 1991, 53(3):231-239 doi:  10.1016/1049-9652(91)90045-L
    [13] Marquina A, Osher S J. Image Super-resolution by TV-Regularization and Bregman Iteration[J]. Journal of Scientific Computing, 2008, 37(3):367-382 doi:  10.1007/s10915-008-9214-8
    [14] 刘帅, 朱亚杰, 薛磊.一种结合稀疏表示和纹理分块的遥感影像超分辨率方法[J].武汉大学学报·信息科学版, 2015, 40(5):578-582 http://ch.whu.edu.cn/CN/abstract/abstract3248.shtml

    Liu Shuai, Zhu Yajie, Xue Lei. Remote Sensing Image Super-resolution Method Using Sparse Representation and Classified Texture Patches[J]. Geomatics and Information Science of Wuhan University, 2015, 40(5):578-582 http://ch.whu.edu.cn/CN/abstract/abstract3248.shtml
    [15] Yang J, Wang Z, Lin Z, et al. Coupled Dictionary Training for Image Super-resolution[J]. IEEE Transactions on Image Processing, 2012, 21(8):3467-3478 doi:  10.1109/TIP.2012.2192127
    [16] Aharon M, Elad M, Bruckstein A. K-SVD:An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation[J]. IEEE Transactions on Signal Processing, 2006, 54(11):4311-4322 doi:  10.1109/TSP.2006.881199
    [17] Tropp J A. Greed is Good:Algorithmic Results for Sparse Approximation[J].IEEE Transactions on Information Theory, 2006, 50(10):2231-2242 https://www.researchgate.net/publication/3085174_Greed_is_Good_Algorithmic_Results_for_Sparse_Approximation
    [18] 张贤达.矩阵分析与应用[M].北京:清华大学出版社, 2004:350-351

    Zhang Xianda. Matrix Analysis and Applications[M]. Beijing:Tsinghua University Press, 2004:350-351
    [19] Gao X, Zhang K, Tao D, et al. Image Super-resolution with Sparse Neighbor Embedding[J]. IEEE Transactions on Image Processing, 2012, 21(7):3194-3205 doi:  10.1109/TIP.2012.2190080
    [20] Zhang K, Gao X, Tao D, et al. Single Image Super-resolution With Non-Local Means and Steering Kernel Regression[J].IEEE Transactions on Image Processing, 2012, 21(11):4544-4556 doi:  10.1109/TIP.2012.2208977
    [21] Dong W, Zhang L, Shi G, et al. Nonlocally Centralized Sparse Representation for Image Restoration[J].IEEE Transactions on Image Processing, 2013, 22(4):1620-1630 doi:  10.1109/TIP.2012.2235847
    [22] Dong W, Zhang L, Shi G, et al. Image Deblurring and Super-Resolution by Adaptive Sparse Domain Selection and Adaptive Regularization[J]. IEEE Transactions on Image Processing, 2011, 20(7):1838-1857 doi:  10.1109/TIP.2011.2108306
    [23] Wang Z, Bovik A C, Sheikh H R, et al. Image Quality Assessment:from Error Visibility to Structural Similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4):600-612 doi:  10.1109/TIP.2003.819861
    [24] Hou H, Andrews H. Cubic Splines for Image Interpolation and Digital Filtering[J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1978, 26(6):508-517 doi:  10.1109/TASSP.1978.1163154
    [25] Yang J, Lin Z, Cohen S. Fast Image Super-resolution Based on In-place Example Regression[C]. IEEE Conference on Computer Vision and Pattern Recognition, Portland, OR, USA, 2013
    [26] Timofte R, De Smet V, Van Gool L. Anchored Neighborhood Regression for Fast Example-Based Super-resolution[C]. IEEE International Conference on Computer Vision, Portland, Oregon, USA, 2013
  • [1] 胡超, 王中元, 王潜心, 饶鹏文.  一种改进的BDS-2/BDS-3联合精密定轨系统偏差处理模型 . 武汉大学学报 ● 信息科学版, 2021, 46(3): 360-370. doi: 10.13203/j.whugis20190132
    [2] 刘文轩, 祁昆仑, 吴柏燕, 吴华意.  基于多任务联合稀疏和低秩表示的高分辨率遥感图像分类 . 武汉大学学报 ● 信息科学版, 2018, 43(2): 297-303. doi: 10.13203/j.whugis20160044
    [3] 李金朋, 张英堂, 范红波, 李志宁, 尹刚, 刘敏.  基于χ2准则的磁梯度张量3D聚焦反演方法 . 武汉大学学报 ● 信息科学版, 2018, 43(2): 255-261. doi: 10.13203/j.whugis20160063
    [4] 曹建农.  高分影像信息提取的特征结构化多尺度分析建模方法研究 . 武汉大学学报 ● 信息科学版, 2018, 43(12): 1943-1953. doi: 10.13203/j.whugis20180253
    [5] 李清泉, 王欢, 邹勤.  一种基于稀疏表示模型的壁画修复算法 . 武汉大学学报 ● 信息科学版, 2018, 43(12): 1847-1853. doi: 10.13203/j.whugis20180217
    [6] 邱益鸣, 廖海斌, 陈庆虎.  基于鉴别字典学习的遮挡人脸姿态识别 . 武汉大学学报 ● 信息科学版, 2018, 43(2): 275-281, 288. doi: 10.13203/j.whugis20150298
    [7] 鹿璇, 汪鼎文, 石文轩.  利用在线字典学习实现图像超分辨率重建的算法 . 武汉大学学报 ● 信息科学版, 2018, 43(5): 719-725. doi: 10.13203/j.whugis20150753
    [8] 方天红, 陈庆虎, 鄢煜尘, 周前进.  基于Gabor特征和稀疏表示的激光打印文档鉴别 . 武汉大学学报 ● 信息科学版, 2016, 41(11): 1550-1555. doi: 10.13203/j.whugis20140896
    [9] 方天红, 陈庆虎, 廖海斌, 邱益鸣.  融合纹理与形状的人脸加权新特征 . 武汉大学学报 ● 信息科学版, 2015, 40(3): 321-326+340.
    [10] 刘帅, 朱亚杰, 薛磊.  一种结合稀疏表示和纹理分块的遥感影像超分辨率方法 . 武汉大学学报 ● 信息科学版, 2015, 40(5): 578-582. doi: 10.13203/j.whugis20130385
    [11] 黄秋燕, 冯学智, 肖鹏峰.  利用稀疏分解的高分辨率遥感图像线状特征检测 . 武汉大学学报 ● 信息科学版, 2014, 39(8): 913-917. doi: 10.13203/j.whugis20130252
    [12] 魏恋欢, 廖明生, BALZ Timo, 张路.  高分辨率SAR层析成像建筑物叠掩散射体提取 . 武汉大学学报 ● 信息科学版, 2014, 39(5): 536-540. doi: 10.13203/j.whugis20120460
    [13] 王乐洋, 许才军.  总体最小二乘研究进展 . 武汉大学学报 ● 信息科学版, 2013, 38(7): 850-856.
    [14] 兰诚栋, 陈亮, 卢涛.  利用位置权重稀疏表示的人脸超分辨率算法 . 武汉大学学报 ● 信息科学版, 2013, 38(1): 27-30.
    [15] 辛亮, 张景雄.  共轭面状特征的快速提取与遥感影像精确配准 . 武汉大学学报 ● 信息科学版, 2011, 36(6): 678-682.
    [16] 廖海斌, 陈庆虎, 鄢煜尘.  面向形变模型的三维人脸建模研究及其改进 . 武汉大学学报 ● 信息科学版, 2011, 36(2): 176-180.
    [17] 张永军, 胡丙华, 张剑清.  大旋角影像的绝对定向方法研究 . 武汉大学学报 ● 信息科学版, 2010, 35(4): 427-431.
    [18] 鲁铁定, 周世健.  总体最小二乘的迭代解法 . 武汉大学学报 ● 信息科学版, 2010, 35(11): 1351-1354.
    [19] 李旭东.  基于奇异值分解的灰度级数字水印算法 . 武汉大学学报 ● 信息科学版, 2010, 35(11): 1305-1308.
    [20] 魏为民, 梁光岚, 唐振军, 王朔中.  基于重叠正交变换的鲁棒水印方法 . 武汉大学学报 ● 信息科学版, 2008, 33(3): 326-329.
  • 加载中
图(2) / 表(1)
计量
  • 文章访问数:  1117
  • HTML全文浏览量:  65
  • PDF下载量:  366
  • 被引次数: 0
出版历程
  • 收稿日期:  2016-08-18
  • 刊出日期:  2017-08-05

采用交替K-奇异值分解字典训练的图像超分辨率算法

doi: 10.13203/j.whugis20150095
    基金项目:

    国家自然科学基金 61601362

    国家自然科学基金 61571361

    国家自然科学基金 61671377

    国家自然科学基金 41504115

    陕西省国际合作与交流计划 2015KW-005

    作者简介:

    徐健, 博士, 副教授, 主要研究方向为图像超分辨率重建。xujian_paper@163.com

    通讯作者: 常志国, 博士, 副教授。chang-zg@126.com
  • 中图分类号: P237

摘要: 采用稀疏表示的图像超分辨率算法中,双字典训练算法与字典的细节恢复能力相关,针对已有双字典训练算法使字典缺乏高频细节信息的特点,提出了一种交替K-奇异值分解字典训练算法。该算法分为训练和测试部分。在训练部分每次字典更新都采用奇异值分解所得到的向量对低高频样本块进行最佳低秩逼近,使得低高频样本块随着迭代次数的增加逐渐取得相同或者相似的稀疏表示系数。在测试过程中,测试低频样本块可以利用低频字典取得的稀疏表示系数与高频字典相乘得到高频细节信息。实验表明,与目前已有算法相比,该算法能够得到高频细节较丰富的图像,平均峰值信噪提高0.3 dB以上,结构相似度提高0.01左右。

English Abstract

徐健, 常志国, 张小丹. 采用交替K-奇异值分解字典训练的图像超分辨率算法[J]. 武汉大学学报 ● 信息科学版, 2017, 42(8): 1137-1143. doi: 10.13203/j.whugis20150095
引用本文: 徐健, 常志国, 张小丹. 采用交替K-奇异值分解字典训练的图像超分辨率算法[J]. 武汉大学学报 ● 信息科学版, 2017, 42(8): 1137-1143. doi: 10.13203/j.whugis20150095
XU Jian, CHANG Zhiguo, ZHANG Xiaodan. Image Super-resolution Based on Alternate K-Singular Value Decomposition[J]. Geomatics and Information Science of Wuhan University, 2017, 42(8): 1137-1143. doi: 10.13203/j.whugis20150095
Citation: XU Jian, CHANG Zhiguo, ZHANG Xiaodan. Image Super-resolution Based on Alternate K-Singular Value Decomposition[J]. Geomatics and Information Science of Wuhan University, 2017, 42(8): 1137-1143. doi: 10.13203/j.whugis20150095
  • 图像超分辨率[1]是依据一个或几个低分辨率图像所提供的信息合成高分辨率图像的技术,广泛应用于刑事侦查、卫星遥感、地质勘探等领域。图像超分辨率算法主要分为两类。第一类直接依据已有的先验知识或者通过机器学习[2],将低分辨率样本放大为高分辨率样本。第二类先利用简单的图像超分辨率算法恢复图像的低频信息,再利用一些增强算法增加图像的高频信息[3, 4]。本文拟采用第二类图像超分辨率算法。

    基于插值的算法,能够有效地恢复高分辨率图像的低频信息,算法复杂度较低,广泛应用于各种图像放大软硬件设备中[5]。因此,本文在恢复低频信息的时候也采用基于插值的方法。

    在恢复图像的高频信息过程中,先验信息是否合理决定了算法的优劣。Yang[6]和Zeyde[3]使用稀疏表示恢复图像的高频信息。他们把仅含有低频信息的图像和高频图像映射到统一特征子空间内。Wang[7]和He[8]假设高低分辨率稀疏表示系数间满足某种线性关系,并使用了一个线性变换矩阵建立稀疏表示系数之间的关系。Tomer[4]认为可以训练一个神经网络来描述低频图像块的稀疏表示系数和高频图像块的稀疏表示系数之间的关系。为了提高算法的执行效率,Timofte[9]将字典原子进行分组,降低了求稀疏表示系数的时间复杂度。由于图像与其不同尺度的版本之间具有局部自相似性,Glasner[10]和Zhang[11]将测试低分辨率图像进行金字塔形的多次下采样形成训练样本进行基于自学习的邻域嵌入。迭代反投影算法(iterative back projection, IBP)[12]和全变分(total variation, TV)[13]正则化算法可以作为后处理过程对实验结果进行增强。

    由于稀疏表示模型[14]具有较好的泛化能力,本文提出一种新的字典训练算法,以提高高分辨率图像中高频成分的恢复能力。在基于统一特征子空间的稀疏表示模型中,稀疏表示字典的训练过程直接关系着算法高频细节的恢复能力。但是,双字典训练是一个非常困难的问题。首先,该问题是个非凸的问题,无法使用传统的凸优化方法来求解。其次,该问题中含有高分辨率字典、低分辨率字典和稀疏表示系数3个变量。

    本文提出了一种交替K-奇异值分解(K-singular value decomposition, KSVD)字典训练算法。与传统算法不同,在字典训练的每一次迭代过程中,本文算法对高低频字典分别进行奇异值分解(singular value decomposition, SVD),利用SVD得到的奇异向量同时更新两个字典的原子,交替利用高低频字典对稀疏表示系数进行更新。训练样本在产生的时候,低频图像块主要包括阶梯型边缘信息,而高频块主要包含高频细节信息。利用交替更新的方法进行字典训练,高低频图像块都同时参与了训练,这样就不会使字典只含有阶梯型边缘的信息。因此,该方法产生的字典比传统的算法更有利于高频细节的恢复。实验结果证明,本文提出的字典训练算法具有较强的细节恢复能力。

    • 采用交替KSVD字典训练图像超分辨率算法的主要思想是将低频块和高频块映射到统一特征子空间上。该算法的原理框图如图 1所示。该算法主要包括一个训练过程和一个测试过程。

      图  1  算法流程图

      Figure 1.  Framework of the Proposed Algorithm

    • 假设L是低分辨率图像,使用双三次插值方法将L放大为边缘较为模糊并且缺乏高频细节的高分辨率图像$\boldsymbol{\tilde H}$,我们称之为低频图像。假设H是目标高分辨率图像,可得到目标高频细节图像为:

      $$ \mathit{\boldsymbol{\hat H = H}} - \mathit{\boldsymbol{\tilde H}} $$ (1)

      如果能够获取$\boldsymbol{\tilde H}$与$\boldsymbol{\hat H}$之间的关系,就可以依据低频图像$\boldsymbol{\tilde H}$来恢复高分辨率细节$\boldsymbol{\hat H}$。

      假设$\{ \boldsymbol{H}_i^s\} _{i = 1}^M$是高分辨率训练样本,其中M为图像总数。将$\{ \boldsymbol{H}_i^s\} _{i = 1}^M$进行双三次插值下采样可以得到低分辨率训练样本$\{ \boldsymbol{L}_i^s\} _{i = 1}^M$。然后,将$\{ \boldsymbol{L}_i^s\} _{i = 1}^M$进行双三次插值上采样得到低频训练样本$\{ \boldsymbol{\tilde H}_i^s\} _{i = 1}^M$。将$\{ \boldsymbol{H}_i^s\} _{i = 1}^M$与$\{ \boldsymbol{\tilde H}_i^s\} _{i = 1}^M$相减可以得到高频训练样本集合$\{ \boldsymbol{\hat H}_i^s\} _{i = 1}^M$,这样就得到训练图像对$\{ \boldsymbol{\tilde H}_i^s, \boldsymbol{\hat H}_i^s\} _{i = 1}^M$。和文献[15]的方法相同,计算$\{ \boldsymbol{\tilde H}_i^s\} _{i = 1}^M$的一阶和二阶水平和垂直梯度图。将这些梯度图切块,再把块拉成列向量,然后连接每一个位置上的4个梯度向量,得到训练样本${\boldsymbol{A}^{s, l}} = \{ \boldsymbol{a}_i^{s, l}\} _{i = 1}^N$,其中N是训练样本块个数。将$\{ \boldsymbol{\hat H}_i^s\} _{i = 1}^M$切块并归一化得到训练样本${\boldsymbol{A}^{s, h}} = \{ \boldsymbol{a}_i^{s, h}\} _{i = 1}^N, \boldsymbol{a}_i^{s, l}$和ais, h是对应位置的低频和高频的训练样本。双字典学习的目的就是得到ais, lais, h之间的关系,从而根据关系恢复出ais, h

      稀疏表示为学习ais, lais, h之间的关系提供了非常有利的工具。依据传统的单个字典的稀疏表示模型[16],低频字典Dl与低频稀疏表示系数qis, l相乘可以稀疏表示低频样本ais, l,其模型为:

      $$ \begin{array}{*{20}{c}} {\mathop {\min }\limits_{{\mathit{\boldsymbol{D}}^l},\left\{ {\mathit{\boldsymbol{q}}_i^{s,l}} \right\}} {{\left\| {\mathit{\boldsymbol{a}}_i^{s,l} - {\mathit{\boldsymbol{D}}^l}\mathit{\boldsymbol{q}}_i^{s,l}} \right\|}_2},{{\left\| {\mathit{\boldsymbol{q}}_i^{s,l}} \right\|}_0} \le \beta ,}\\ {i = 1,2, \cdots ,N} \end{array} $$ (2)

      式中,β为稀疏度约束。

      同理,高频字典Dh与稀疏表示系数qis, h相乘可以稀疏表示高频样本ais, h,其模型可以表示为:

      $$ \begin{array}{*{20}{c}} {\mathop {\min }\limits_{{\mathit{\boldsymbol{D}}^h},\left\{ {\mathit{\boldsymbol{q}}_i^{s,h}} \right\}} {{\left\| {\mathit{\boldsymbol{a}}_i^{s,h} - {\mathit{\boldsymbol{D}}^h}\mathit{\boldsymbol{q}}_i^{s,h}} \right\|}_2},{{\left\| {\mathit{\boldsymbol{q}}_i^{s,h}} \right\|}_0} \le \beta ,}\\ {i = 1,2, \cdots ,N} \end{array} $$ (3)

      假设DlDh可以让ais, lais, h取得相同的稀疏表示系数,即令qis, l= qis, h= qis。那么,如果我们得到一个测试低频块ait, l,就可以计算出它的稀疏表示系数qit。令这个稀疏表示系数与Dh相乘,就可以得到ait, l对应的高频块ait, h= Dh qit

      因此,利用如下双字典训练模型训练DlDh[6]

      $$ \begin{array}{*{20}{c}} {\mathop {\min }\limits_{{\mathit{\boldsymbol{D}}^l},{\mathit{\boldsymbol{D}}^h},\left\{ {\mathit{\boldsymbol{q}}_i^s} \right\}} \sum\limits_{i = 1}^N {\left( {{{\left\| {\mathit{\boldsymbol{a}}_i^{s,l} - {\mathit{\boldsymbol{D}}^l}\mathit{\boldsymbol{q}}_i^s} \right\|}_2} + } \right.} }\\ {\left. {{{\left\| {\mathit{\boldsymbol{a}}_i^{s,h} - {\mathit{\boldsymbol{D}}^h}\mathit{\boldsymbol{q}}_i^s} \right\|}_2}} \right)}\\ {{\rm{s}}.\;{\rm{t}}.\;\;\;{{\left\| {\mathit{\boldsymbol{q}}_i^s} \right\|}_0} \le \beta ,\;\;{{\left\| {\mathit{\boldsymbol{d}}_k^l} \right\|}_2} = 1,\;\;{{\left\| {\mathit{\boldsymbol{d}}_k^h} \right\|}_2} = 1,}\\ {k = 1,2, \cdots n} \end{array} $$ (4)

      式中,${\boldsymbol{D}^l} = [\boldsymbol{d}_1^l\; \boldsymbol{d}_2^l\; \cdots \; \boldsymbol{d}_n^l]$为低频字典;${\boldsymbol{D}^h} = [\boldsymbol{d}_1^h\; \boldsymbol{d}_2^h\; \cdots \; \boldsymbol{d}_n^h]$为高频字典,其中dkl是低频字典的第k个原子,dkh是高频字典的第k个原子,n是原子个数。

      该模型包括两个重要的目标。

      1) 字典DlDh能够分别对低频图像块和高频图像块进行稀疏表示。其稀疏表示系数与字典相乘,能够很好地逼近低频图像块${\boldsymbol{A}^{s, l}} = \{ \boldsymbol{a}_i^{s, l}\} _{i = 1}^N$和高频图像块${\boldsymbol{A}^{s, h}} = \{ \boldsymbol{a}_i^{s, h}\} _{i = 1}^N$。

      2) 低频图像块${\boldsymbol{A}^{s, h}} = \{ \boldsymbol{a}_i^{s, h}\} _{i = 1}^N$和高频图像块${\boldsymbol{A}^{s, h}} = \{ \boldsymbol{a}_i^{s, h}\} _{i = 1}^N$能够分别在DlDh的表示下得到相同的稀疏表示系数。

      为了达到这两个目标,设计了交替KSVD字典训练算法。该算法包含一个训练过程和一个测试过程(图 1)。在训练过程中,利用训练样本集合$\{ (\boldsymbol{a}_i^{s, l}, \boldsymbol{a}_i^{s, h})\} _{i = 1}^N$训练出一对字典DlDh。在测试过程中,利用这对字典对输入的低分辨率图像进行恢复。

    • 交替KSVD字典训练算法的主要思想有以下几点。

      1) 每个字典原子更新过程中要保持每个样本的稀疏度。在更新某个原子时,只使用跟该原子有关系的样本进行更新。判断哪个样本跟所更新原子有关系的方法是看该样本的稀疏表示系数在该原子的对应位置上是否为0。如果在该原子的位置上不是0,表示该原子参与了该样本的稀疏表示,也就意味着该原子是该样本的成分之一。如果是0,表示该原子没有参与该样本的稀疏表示,该原子不是该样本的成分,那么该样本就不应该参与该原子的更新。

      2) 要使对应的低高频图像块都拥有相同的稀疏表示系数,则参与更新对应原子的图像块也应该对应。因此,更新低频图像块对应的低频字典原子的同时,利用这些低频图像块对应的高频图像块和相同的稀疏表示系数更新对应的高频字典原子,让高低频稀疏表示系数在字典更新的过程中趋于一致。

    • 算法的具体流程如下。

      1) 初始化。通过随机选择As, l中的n个样本组成初始低频字典Dl, (0),这些样本在As, h中对应的n个样本组成高频字典Dh, (0)

      2) 迭代如下步骤直至满足停止条件(例如,达到设定的迭代次数),J表示迭代次数。

      (1) 交替使用正交匹配追踪算法[17]求解式(5)、式(6) 获得稀疏表示系数qis, (J)

      $$ \begin{array}{*{20}{c}} {\mathop {\min }\limits_{\left\{ {\mathit{\boldsymbol{q}}_i^{s,\left( J \right)}} \right\}} {{\left\| {\mathit{\boldsymbol{a}}_i^{s,l} - {\mathit{\boldsymbol{D}}^{l,\left( {J - 1} \right)}}\mathit{\boldsymbol{q}}_i^{s,\left( J \right)}} \right\|}_2},}\\ {{\rm{s}}.\;{\rm{t}}.\;\;\;{{\left\| {\mathit{\boldsymbol{q}}_i^{s,\left( J \right)}} \right\|}_0} \le \beta ,\;i = 1,2, \cdots ,N} \end{array} $$ (5)
      $$ \begin{array}{*{20}{c}} {\mathop {\min }\limits_{\left\{ {\mathit{\boldsymbol{q}}_i^{s,\left( J \right)}} \right\}} {{\left\| {\mathit{\boldsymbol{a}}_i^{s,h} - {\mathit{\boldsymbol{D}}^{h,\left( {J - 1} \right)}}\mathit{\boldsymbol{q}}_i^{s,\left( J \right)}} \right\|}_2},}\\ {{\rm{s}}.\;{\rm{t}}.\;\;\;{{\left\| {\mathit{\boldsymbol{q}}_i^{s,\left( J \right)}} \right\|}_0} \le \beta ,\;i = 1,2, \cdots ,N} \end{array} $$ (6)

      式中,Dl, (J-1)为第J-1次迭代得到的低频稀疏表示字典;D h, (J-1)为第J-1次迭代得到的高频稀疏表示字典。

      (2) 同时更新稀疏表示字典Dl, (J-1)Dh, (J-1)和稀疏表示系数矩阵${\boldsymbol{Q}^{(J)}} = [\boldsymbol{q}_1^{s, (j)}\boldsymbol{q}_2^{s, (j)} \cdots \boldsymbol{q}_N^{s, (j)}]$。

      利用如下方法更新第k个低频字典原子dkl, (J-1)和高频字典原子dkh, (J-1)(其中k=1, 2, …, n)。

      假设利用了第k个原子进行稀疏表示的样本号码集合为Ω(即稀疏表示系数的第k个元素不为0的样本号码)。将号码在Ω中的样本组成样本集合${\boldsymbol{\tilde A}^{s, l, k}}$,对应的高频样本集合为${\boldsymbol{\tilde A}^{s, h, k}}$。假设Q(J)中的列坐标在Ω中的稀疏表示系数组成的集合为Qk, (J),那么qTj, k, (J)Qk, (J)的第j行。

      因此有:

      $$ {{\mathit{\boldsymbol{\tilde A}}}^{s,l,k}} = \sum\limits_j {\mathit{\boldsymbol{d}}_j^{l,\left( {J - 1} \right)}\mathit{\boldsymbol{q}}_T^{j,k,\left( J \right)}} + {\mathit{\boldsymbol{E}}^{l,k}} $$ (7)
      $$ {{\mathit{\boldsymbol{\tilde A}}}^{s,h,k}} = \sum\limits_j {\mathit{\boldsymbol{d}}_j^{h,\left( {J - 1} \right)}\mathit{\boldsymbol{q}}_T^{j,k,\left( J \right)} + {\mathit{\boldsymbol{E}}^{h,k}}} $$ (8)

      式中,El, kEh, k是高低分辨率图像${\boldsymbol{\tilde A}^{s, l, k}}$和${\boldsymbol{\tilde A}^{s, h, k}}$在稀疏表示之后的误差。

      令:

      $$ \begin{array}{*{20}{c}} {\mathit{\boldsymbol{\tilde W}}_k^{l,\left( {J - 1} \right)} = {{\mathit{\boldsymbol{\tilde A}}}^{s,l,k}} - \sum\limits_{j \ne k} {\mathit{\boldsymbol{d}}_j^{l,\left( {J - 1} \right)}\mathit{\boldsymbol{q}}_T^{j,k,\left( J \right)}} = }\\ {\mathit{\boldsymbol{d}}_k^{l,\left( {J - 1} \right)}\mathit{\boldsymbol{q}}_T^{k,k,\left( J \right)} + {\mathit{\boldsymbol{E}}^{l,k}}} \end{array} $$ (9)
      $$ \begin{array}{*{20}{c}} {\mathit{\boldsymbol{\tilde W}}_k^{h,\left( {J - 1} \right)} = {{\mathit{\boldsymbol{\tilde A}}}^{s,h,k}} - \sum\limits_{j \ne k} {\mathit{\boldsymbol{d}}_j^{h,\left( {J - 1} \right)}\mathit{\boldsymbol{q}}_T^{j,k,\left( J \right)}} = }\\ {\mathit{\boldsymbol{d}}_k^{h,\left( {J - 1} \right)}\mathit{\boldsymbol{q}}_T^{k,k,\left( J \right)} + {\mathit{\boldsymbol{E}}^{h,k}}} \end{array} $$ (10)

      对$\boldsymbol{\tilde W}_k^{l, (J-1)}$和$\boldsymbol{\tilde W}_k^{h, (J-1)}$进行奇异值分解:

      $$ \mathit{\boldsymbol{\tilde W}}_k^{l,\left( {J - 1} \right)} = \mathit{\boldsymbol{U}}_k^{l,\left( {J - 1} \right)}\mathit{\boldsymbol{S}}_k^{l,\left( {J - 1} \right)}\mathit{\boldsymbol{V}}_k^{l,\left( {J - 1} \right){\rm{T}}} $$ (11)
      $$ \mathit{\boldsymbol{\tilde W}}_k^{h,\left( {J - 1} \right)} = \mathit{\boldsymbol{U}}_k^{h,\left( {J - 1} \right)}\mathit{\boldsymbol{S}}_k^{h,\left( {J - 1} \right)}\mathit{\boldsymbol{V}}_k^{h,\left( {J - 1} \right){\rm{T}}} $$ (12)

      式中, Vkl, (J-1) TVkh, (J-1) T中上标T表示转置。

      Ukl, (J-1)的第一列Uk, 1l, (J-1)更新dkl, (J-1)Ukh, (J-1)的第一列Uk, 1h, (J-1)更新dkh, (J-1)。如果第一步的稀疏表示系数用式(5) 计算,用Skl, (J-1)左上角的元素Skl, (J-1) (1, 1) 与Vkl, (J-1) T的第一行Vk, 1l, (J-1) T相乘更新qTk, k, (J);如果第一步的稀疏表示系数用式(6) 计算,用Skh, (J-1)左上角的元素Skh, (J-1) (1, 1) 与Vkh, (J-1) T的第一行Vk, 1h, (J-1) T相乘更新qTk, k, (J)

      之所以使用上述方法进行字典更新, 是由于字典训练的目标是希望使用少数原子对一组样本进行稀疏表示,那么少到极限就是使用一个原子。在上述算法中,$\boldsymbol{\tilde W}_k^{l, (J-1)}$和$\boldsymbol{\tilde W}_k^{h, (J-1)}$是对应的。在更新之前,dkl, (J-1) qTk, k, (J)dkh, (J-1) qTk, k, (J)可以看成是对$\boldsymbol{\tilde W}_k^{l, (J-1)}$和$\boldsymbol{\tilde W}_k^{h, (J-1)}$进行的秩为1的逼近。根据文献[18],奇异值分解可以获取在F范数意义下的秩为1的最佳逼近。因此取Ukl, (J-1)的第一列Uk, 1l, (J-1)更新dkl, (J-1)Ukh, (J-1)的第一列Uk, 1h, (J-1)更新dkh, (J-1)。用Skl, (J-1)(或Skh, (J-1))左上角的元素Skl, (J-1) (1, 1) (或Skh, (J-1) (1, 1))与Vkl, (J-1) T(或Vkh, (J-1) T)的第一行Vk, 1l, (J-1) T(或Vk, 1h, (J-1) T)相乘更新qTj, k, (J)对$\boldsymbol{\tilde W}_k^{l, (J-1)}$和$\boldsymbol{\tilde W}_k^{h, (J-1)}$进行逼近,可以得到比dkl, (J-1) qTk, k, (J)dkh, (J-1) qTk, k, (J)误差更小的逼近。

    • 测试算法的主要思想是当DlDh训练完成以后,利用它们恢复出测试低频样本块对应的高频样本块,然后将高频样本块与低频样本块相加得到恢复出的高分辨率图像块,最后将这些高分辨率图像块组合成高分辨率图像。测试算法的具体步骤如下。

      1) 将测试低分辨率图像Lt通过双三次插值,获得拥有低频信息的高分辨率图像${\boldsymbol{\tilde H}^t}$。

      2) 将${\boldsymbol{\tilde H}^t}$切块,并利用训练部分相同的算法[6]得到低频样本测试块集合At, l= {ait, l}i=1C,其中C为测试块的个数。

      3) 使用正交匹配追踪算法[18]利用字典Dlait, l的稀疏表示系数qit

      $$ \begin{array}{*{20}{c}} {\mathop {\min }\limits_{\left\{ {\mathit{\boldsymbol{q}}_i^t} \right\}} {{\left\| {\mathit{\boldsymbol{a}}_i^{t,l} - {\mathit{\boldsymbol{D}}^l}\mathit{\boldsymbol{q}}_i^t} \right\|}_2},}\\ {{\rm{s}}.\;{\rm{t}}.\;\;\;{{\left\| {\mathit{\boldsymbol{q}}_i^t} \right\|}_0} \le \beta ,\;i = 1,2, \cdots ,C} \end{array} $$ (13)

      4) 计算高分辨率块:

      $$ \mathit{\boldsymbol{a}}_i^{t,h} = \mathit{\boldsymbol{a}}_i^{t,l} + {\mathit{\boldsymbol{D}}^h}\mathit{\boldsymbol{q}}_i^t $$ (14)

      5) 将所有高分辨率块{ait, h}i=1C放回其原来的位置。块与块重叠的部分使用平均值作为最终的像素值,得到合成的高分辨率图像Ht

      基于稀疏表示的图像超分辨完成后,有一些边缘部分不够清晰。为了解决这个问题,采用了基于全变分正则化的图像增强[13]及IBP算法进一步对结果图像进行增强。

    • 本文使用了SRSC(super-resolution based on sparse coding)算法[6]的软件包里的训练样本作为训练数据。为了便于对比,测试样本选用了在许多相关工作里面都反复使用的测试图片[11, 19-22]。本文使用峰值信噪比(peak signal to noise ratio, PSNR)和结构相似度(structure similarity, SSIM)[23]作为客观评价标准。

    • 为了验证算法的有效性,将该算法与一些相关的算法进行了对比,其中包括双三次插值[24]、SRSC[6]、全变分正则化[13]、原地回归[25]、Zeyde的算法[3]、ANR(anchored neighborhood regression)[26]、SPM(statistical prediction model)[4]和LRNE(low-rank neighbor embedding)算法[2]。为了进行公平比较,在对比实验中使用了Zeyde的算法同样的参数。字典原子个数为1 000,稀疏度为3,迭代次数为40次,块大小为9×9,重叠大小为6。参与训练的样本块个数为10 000对。

      表 1显示了每种算法的输出结果的PSNR和SSIM值。每个单元格的第一行是PSNR值,第二行是SSIM值。从这些数据结果可以看出,本文的算法与许多目前已有的算法相比,大多数情况下能够产生更高的PSNR和SSIM值。图 2显示了对比实验结果。从图 2中可以看出,本文的算法得到了更清晰的边缘和高频细节,且人工痕迹较少。

      图  2  “鹦鹉”图对比实验结果(3倍)

      Figure 2.  Comparison of Parrot Images(Triple)

      表 1  3倍放大时的PSNR(dB)和SSIM值

      Table 1.  PSNR (dB) and SSIM Values of Magnification(Triple)

      测试图 双三次 SRSC 全变分 原地回归 Zeyde ANR SPM LRNE 本文
      帽子 29.197 0 29.967 0 30.210 0 29.568 0 30.432 0 30.100 0 29.833 0 29.976 0 30.675 0
      0.828 1 0.847 0 0.852 2 0.837 6 0.856 8 0.863 7 0.848 0 0.842 8 0.870 4
      树叶 23.452 0 24.558 0 25.011 0 23.921 0 25.283 0 23.117 0 24.777 0 24.359 0 25.673 0
      0.802 6 0.834 8 0.868 4 0.832 7 0.873 5 0.829 5 0.849 8 0.847 2 0.878 3
      摩托 22.808 0 23.642 0 23.760 0 23.175 0 23.847 0 23.243 0 23.484 0 23.340 0 24.057 0
      0.704 0 0.750 6 0.763 9 0.732 4 0.765 5 0.748 1 0.743 0 0.729 0 0.780 2
      植物 31.085 0 31.966 0 32.334 0 31.577 0 32.517 0 30.373 0 31.893 0 31.805 0 32.833 0
      0.868 1 0.886 5 0.894 7 0.880 8 0.887 9 0.881 3 0.886 5 0.883 0 0.905 3
      鹦鹉 28.096 0 29.179 0 29.248 0 28.752 0 29.423 0 28.806 0 28.904 0 28.590 0 29.544 0
      0.881 9 0.897 9 0.900 4 0.891 3 0.901 2 0.902 8 0.895 1 0.889 0 0.906 3
      花朵 27.456 0 28.192 0 28.607 0 27.883 0 28.575 0 27.703 0 28.171 0 27.889 0 28.877 0
      0.787 9 0.817 2 0.831 2 0.808 8 0.832 4 0.818 6 0.815 8 0.803 1 0.834 6
      平均值 27.367 0 28.301 0 28.497 9 27.831 3 28.763 0 27.545 0 28.196 0 28.050 0 29.054 0
      0.811 5 0.838 8 0.849 8 0.830 4 0.854 3 0.840 9 0.838 5 0.832 9 0.864 6
    • 本文提出了一种采用稀疏表示的图像超分辨率字典训练算法。该算法利用SVD所得到的奇异值和向量进行字典原子和稀疏表示系数的更新,能够得到具有较好推广性的过完备字典。实验结果表明,利用该算法得到的稀疏表示字典进行图像超分辨率可以得到较清晰的边缘,并且人工痕迹较少。

      本算法所提出的双字典训练过程可以推广到多个双空间信息转换问题上。例如,不同照度之间转换、不同色彩空间转换、人脸的不同方向和表情转换等。因此,该算法具有较好的推广价值。

参考文献 (26)

目录

    /

    返回文章
    返回