留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

融合注意力与序列单元的文本超分辨率

韦豪东 易尧华 余长慧 林立宇

韦豪东, 易尧华, 余长慧, 林立宇. 融合注意力与序列单元的文本超分辨率[J]. 武汉大学学报 ● 信息科学版. doi: 10.13203/j.whugis20220158
引用本文: 韦豪东, 易尧华, 余长慧, 林立宇. 融合注意力与序列单元的文本超分辨率[J]. 武汉大学学报 ● 信息科学版. doi: 10.13203/j.whugis20220158
WEI Haodong, YI Yaohua, YU Changhui, LIN Liyu. Text Super-resolution Method with Attentional Mechanism and Sequential Units[J]. Geomatics and Information Science of Wuhan University. doi: 10.13203/j.whugis20220158
Citation: WEI Haodong, YI Yaohua, YU Changhui, LIN Liyu. Text Super-resolution Method with Attentional Mechanism and Sequential Units[J]. Geomatics and Information Science of Wuhan University. doi: 10.13203/j.whugis20220158

融合注意力与序列单元的文本超分辨率

doi: 10.13203/j.whugis20220158
基金项目: 

国家重点研发计划(2021YFB2206200)。

详细信息
    作者简介:

    韦豪东,硕士生,主要从事图像超分辨率重建及相关应用的理论与方法研究。WHUweihaodong@163.com

  • 中图分类号: P237

Text Super-resolution Method with Attentional Mechanism and Sequential Units

  • 摘要: 街景影像中的文本信息是感知与理解场景的关键线索,低分辨率街景影像文本区域细节缺乏导致文本识别准确率降低。文本超分辨率通过增强文本区域边缘及纹理细节提高文本识别准确率,本文提出融合注意力与序列单元的街景影像文本超分辨率方法。首先采用混合残差注意力结构提取影像文本区域空间信息、通道信息并融合特征,序列单元通过双向门控循环结构提取影像中文本间序列先验信息;再利用梯度先验知识作为约束条件,重构街景影像文本区域。本文采用TextZoom真实场景影像及合成文本影像进行对比分析,试验结果表明超分辨率重构的街景影像文本区域边缘清晰、纹理细节丰富,可以提高街景影像文本识别准确率。
  • [1] Wang W J, Xie E Z, Sun P Z, et al. TextSR:Content-Aware Text Super-Resolution Guided by Recognition, 2019[OL]. https://arxiv.org/pdf/1909.07113.pdf, 2022
    [2] Wang W J, Xie E Z, Liu X B, et al. Scene Text Image Super-Resolution in the Wild[M]//Computer Vision-ECCV 2020. Cham:Springer International Publishing, 2020:650-666
    [3] Dong C, Zhu X M, Deng Y B, et al. Boosting Optical Character Recognition:A Super-Resolution Approach, 2015[OL]. https://arxiv.org/pdf/1506.02211.pdf, 2022
    [4] Peyrard C, Baccouche M, Mamalet F, et al. ICDAR2015 competition on text image super-resolution[C]//201513th International Conference on Document Analysis and Recognition (ICDAR). Tunis, Tunisia.:1201-1205
    [5] Dong C, Loy C C, He K M, et al. Image Super-Resolution Using Deep Convolutional Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(2):295-307
    [6] Pandey R K, Vignesh K, Ramakrishnan A G, et al. Binary Document Image Super Resolution for Improved Readability and OCR Performance, 2018[OL]. https://arxiv.org/pdf/1812.02475.pdf, 2022
    [7] Nakao R, Iwana B K, Uchida S. Selective super-resolution for scene text images[C]//2019 International Conference on Document Analysis and Recognition (ICDAR). Sydney, NSW, Australia.:401-406
    [8] Lin K, Liu Y B, Li T H, et al. Text image super-resolution by image matting and text label supervision[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Long Beach, CA, USA.:1722-1727
    [9] Wang Z H, Chen J, Hoi S C H. Deep Learning for Image Super-Resolution:A Survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(10):3365-3387
    [10] Liao Haibin, Chen Youbin, Chen Qinghu. Non-Local Similarity Dictionary Learning Based Super-Resolution for Improved Face Recognition[J]. Geomatics and Information Science of Wuhan University, 2016, 41(10):1414-1420
    [11] Lim B, Son S, Kim H, et al. Enhanced deep residual networks for single image super-resolution[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu, HI, USA.:1132-1140
    [12] Vaswani A, Shazeer N, Parmar N, et al. Attention Is All You Need, 2017[OL]. https://arxiv.org/pdf/1706.03762.pdf, 2022
    [13] Fu J, Liu J, Tian H J, et al. Dual attention network for scene segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA.:3141-3149
    [14] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An Image Is Worth 16x16 Words:Transformers for Image Recognition at Scale, 2021[OL]. https://arxiv.org/pdf/2010.11929.pdf, 2022
    [15] Zhao H S, Jia J Y, Koltun V. Exploring self-attention for image recognition[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA.:10073-10082
    [16] Zhang Y L, Li K P, Li K, et al. Image Super-Resolution Using Very Deep Residual Channel Attention Networks[C]//Proceedings of the 2018 European Conference on Computer Vision, Munich, Germany, 2018
    [17] Muqeet A, Iqbal M T B, Bae S H. HRAN:Hybrid Residual Attention Network for Single Image Super-Resolution[J]. IEEE Access, 7:137020-137029
    [18] Wang Y Y, Su F, Qian Y. Text-attentional conditional generative adversarial network for super-resolution of text images[C]//2019 IEEE International Conference on Multimedia and Expo. Shanghai, China.:1024-1029
    [19] Anwar S, Barnes N. Densely Residual Laplacian Super-Resolution[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(3):1192-1204
    [20] Shi W Z, Caballero J, Huszár F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA.:1874-1883
    [21] He K M, Zhang X Y, Ren S Q, et al. Deep Residual Learning for Image Recognition, 2015[OL]. https://arxiv.org/pdf/1512.03385.pdf, 2022
    [22] Li J C, Xie E Z, Fang F M. Multi-Scale Residual Network for Image Super-Resolution[C]//Proceedings of the 2018 European Conference on Computer Vision, Munich, Germany, 2018
    [23] Shi B G, Yang M K, Wang X G, et al. ASTER:An Attentional Scene Text Recognizer with Flexible Rectification[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(9):2035-2048
    [24] Sun J, Sun J, Xu Z B, et al. Gradient Profile Prior and Its Applications in Image Super-Resolution and Enhancement[J]. IEEE Transactions on Image Processing, 2011, 20(6):1529-1542
    [25] Tran H T M, Phuoc T H. Deep Laplacian Pyramid Network for Text Images Super-Resolution[J]//Proceedings of the 2019 IEEE-RIVF International Conference on Computing and Communication Technologies, Danang, Vietnam, 2019
    [26] Jaderberg M, Simonyan K, Zisserman A, et al. Spatial Transformer Networks[C]//Proceedings of the 29th Annual Conference on Neural Information Processing Systems, Montreal, Canada, 2015
    [27] Lai W S, Huang J B, Ahuja N, et al. Deep Laplacian Pyramid Networks for Fast and Accurate Super-Resolution[C]//Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, HI, USA, 2017
    [28] Luo C J, Jin L W, Sun Z H. MORAN:A Multi-Object Rectified Attention Network for Scene Text Recognition[J]. Pattern Recognition, 2019, 90:109-118
    [29] Shi B G, Bai X, Yao C. An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(11):2298-2304
    [30] Geng C, Chen L, Zhang X, et al. Adversarial Text Image Super-Resolution using Sinkhorn Distance[C]//ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020.
    [31] Xue M, Huang Z, Liu R, et al. A Novel Attention Enhanced Residual-In-Residual Dense Network for Text Image Super-Resolution[C]//2021 IEEE International Conference on Multimedia and Expo (ICME), 2021.
  • [1] 孙一帆, 余旭初, 谭熊, 刘冰, 高奎亮.  面向小样本高光谱影像分类的轻量化关系网络 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20210157
    [2] 梁烽, 张瑞祥, 柴英特, 陈金勇, 茹国宝, 杨文.  一种结合上下文与边缘注意力的SAR图像海陆分割深度网络方法 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20210078
    [3] 陈行, 罗斌.  利用动态上采样滤波深度网络进行多角度遥感影像超分辨率重建 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20200651
    [4] 徐虹, 王禄斌, 方志祥, 何明辉, 侯学成, 左亮, 管昉立, 熊策, 龚毅宇, 庞晴霖, 张涵, 孙树藤, 娜迪热∙艾麦尔.  街景影像下的临街建筑风格映射及地图生成方法 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20200445
    [5] 周于涛, 吴华意, 成洪权, 郑杰, 李学锡.  结合自注意力机制和结伴行为特征的行人轨迹预测模型 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20200159
    [6] 眭海刚, 黄立洪, 刘超贤.  利用具有注意力的Mask R-CNN检测震害建筑物立面损毁 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20200158
    [7] 佃袁勇, 杨光, 方圣辉.  傅里叶谱纹理和光谱信息结合的高分辨率遥感影像地表覆盖分类 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20140952
    [8] 眭海刚, 华凤, 范一大, 刘俊怡.  利用GIS与贝叶斯网络进行高分辨率SAR影像道路损毁信息提取 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20140323
    [9] 刘帅, 朱亚杰, 薛磊.  一种结合稀疏表示和纹理分块的遥感影像超分辨率方法 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20130385
    [10] 杨红卫, 童小华.  高分辨率影像的橡胶林分布信息提取 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20121134
    [11] 陈王丽, 孙涛, 陈喆3马国锐, 秦前清.  利用光流配准进行嫦娥一号CCD多视影像超分辨率重建 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20130289
    [12] 何培培, 万幼川, 高贤君, 秦家鑫.  基于彩色信息尺度不变特征的街景影像匹配 . 武汉大学学报 ● 信息科学版,
    [13] 魏士俨, 申振荣, 张烁, 刘少创.  月球车图像超分辨率重建算法 . 武汉大学学报 ● 信息科学版,
    [14] 郭琳, 陈庆虎.  结构保持的图像序列自适应超分辨率重建 . 武汉大学学报 ● 信息科学版,
    [15] 李晓峰, 张弛, 潘欣, 那晓东.  贝特朗曲线性质在高分辨率遥感影像道路边缘信息提取中的应用 . 武汉大学学报 ● 信息科学版,
    [16] 张艳, 王涛, 徐青, 孙雷.  基于HMRF先验模型的HBE卫星遥感图像超分辨率重建 . 武汉大学学报 ● 信息科学版,
    [17] 谭兵, 郭建星, 邢帅, 张艳.  影像超分辨率重建中的动态数据更新算法 . 武汉大学学报 ● 信息科学版,
    [18] 张剑清, 张勇, 郑顺义, 张宏伟.  高分辨率遥感影像的精纠正 . 武汉大学学报 ● 信息科学版,
    [19] 高贤君, 冉树浩, 张广斌, 杨元维.  基于多特征融合与对象边界联合约束网络的建筑物提取 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20210520
    [20] 任诗曼, 朱军, 方铮, 李闯农, 梁策, 谢亚坤, 李维炼, 张天奕.  联合多尺度注意力机制与边缘约束的SPOT7影像林地提取方法 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20210251
  • 加载中
计量
  • 文章访问数:  140
  • HTML全文浏览量:  27
  • PDF下载量:  20
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-07-14
  • 网络出版日期:  2022-08-19

融合注意力与序列单元的文本超分辨率

doi: 10.13203/j.whugis20220158
    基金项目:

    国家重点研发计划(2021YFB2206200)。

    作者简介:

    韦豪东,硕士生,主要从事图像超分辨率重建及相关应用的理论与方法研究。WHUweihaodong@163.com

  • 中图分类号: P237

摘要: 街景影像中的文本信息是感知与理解场景的关键线索,低分辨率街景影像文本区域细节缺乏导致文本识别准确率降低。文本超分辨率通过增强文本区域边缘及纹理细节提高文本识别准确率,本文提出融合注意力与序列单元的街景影像文本超分辨率方法。首先采用混合残差注意力结构提取影像文本区域空间信息、通道信息并融合特征,序列单元通过双向门控循环结构提取影像中文本间序列先验信息;再利用梯度先验知识作为约束条件,重构街景影像文本区域。本文采用TextZoom真实场景影像及合成文本影像进行对比分析,试验结果表明超分辨率重构的街景影像文本区域边缘清晰、纹理细节丰富,可以提高街景影像文本识别准确率。

English Abstract

韦豪东, 易尧华, 余长慧, 林立宇. 融合注意力与序列单元的文本超分辨率[J]. 武汉大学学报 ● 信息科学版. doi: 10.13203/j.whugis20220158
引用本文: 韦豪东, 易尧华, 余长慧, 林立宇. 融合注意力与序列单元的文本超分辨率[J]. 武汉大学学报 ● 信息科学版. doi: 10.13203/j.whugis20220158
WEI Haodong, YI Yaohua, YU Changhui, LIN Liyu. Text Super-resolution Method with Attentional Mechanism and Sequential Units[J]. Geomatics and Information Science of Wuhan University. doi: 10.13203/j.whugis20220158
Citation: WEI Haodong, YI Yaohua, YU Changhui, LIN Liyu. Text Super-resolution Method with Attentional Mechanism and Sequential Units[J]. Geomatics and Information Science of Wuhan University. doi: 10.13203/j.whugis20220158
参考文献 (31)

目录

    /

    返回文章
    返回