留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

行列式点过程采样的文本生成图像方法

李晓霖 李刚 张恩琪 顾广华

李晓霖, 李刚, 张恩琪, 顾广华. 行列式点过程采样的文本生成图像方法[J]. 武汉大学学报 ● 信息科学版. doi: 10.13203/j.whugis20210373
引用本文: 李晓霖, 李刚, 张恩琪, 顾广华. 行列式点过程采样的文本生成图像方法[J]. 武汉大学学报 ● 信息科学版. doi: 10.13203/j.whugis20210373
Li Xiaolin, Li Gang, Zhang Enqi, Gu Guanghua. Determinant Point Process Sampling Method for Text-to-Image Generation[J]. Geomatics and Information Science of Wuhan University. doi: 10.13203/j.whugis20210373
Citation: Li Xiaolin, Li Gang, Zhang Enqi, Gu Guanghua. Determinant Point Process Sampling Method for Text-to-Image Generation[J]. Geomatics and Information Science of Wuhan University. doi: 10.13203/j.whugis20210373

行列式点过程采样的文本生成图像方法

doi: 10.13203/j.whugis20210373
基金项目: 

国家自然科学基金(62072394)、河北省自然科学基金(F2021203019)。

详细信息
    作者简介:

    李晓霖,硕士生,研究方向为生成对抗网络、文本生成图像。imlixlin@163.com

Determinant Point Process Sampling Method for Text-to-Image Generation

Funds: 

The National Natural Science Foundation of China(No.62072394)

  • 摘要: 近年来,基于生成对抗网络(Generative Adversarial Networks,GAN)的文本生成图像问题取得了很大的突破,它可以根据文本的语义信息生成相应的图像。然而目前生成的图像结果通常缺乏具体的纹理细节,而且经常出现模式崩塌、缺乏多样性等问题。本文针对以上问题,提出一种针对生成对抗网络的行列式点过程方法(Determinant Point Process for Generative AdversarialNetworks,GAN-DPP)来提高模型生成样本的质量,并使用StackGAN++、ControlGAN两种基线模型对GAN-DPP进行实现。在训练过程中,该方法使用行列式点过程核矩阵对真实数据和合成数据的多样性进行建模,并通过引入无监督惩罚损失来鼓励生成器生成与真实数据相似的多样性数据,从而提高生成样本的清晰度及多样性,减轻模型崩塌等问题,并且无需增加额外的训练过程。在CUB和Oxford-102数据集上,通过Inception Score、Fréchet Inception Distance分数、Human Rank三种指标的定量评估,证明了GAN-DPP对生成图像多样性与质量提升的有效性。同时通过定性的可视化比较,证明使用GAN-DPP的模型生成的图像纹理细节更加丰富,多样性显著提高。
  • [1] Wang M, Ai T, Yan X, et al.Grid Pattern Recognition in Road Networks Based on Graph Convolution Network Model[J].Geomatics and Information Science of Wuhan University, 2020, 45(12):1960-1969
    [2] Zheng C X, Cham T J, Cai J F.Pluralistic image completion[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach, CA, USA:1438-1447
    [3] Karnewar A, Wang O.MSG-GAN:Multi-Scale Gradient GAN for Stable Image Synthesis[OL].https://arxiv.org/abs/1903.06048, 2019
    [4] Li Y T, Gan Z, Shen Y L, et al.StoryGAN:A sequential conditional GAN for story visualization[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach, CA, USA:6322-6331
    [5] Xu K, Ba J L, Kiros R, et al.Show, Attend and Tell:Neural Image Caption Generation with Visual Attention[C]//Proceedings of the 32nd International Conference on International Conference on Machine Learning-Volume 37.2015:2048-2057
    [6] Wei Y C, Zhao Y, Lu C Y, et al.Cross-Modal Retrieval with CNN Visual Features:A New Baseline[J].IEEE Transactions on Cybernetics, 2017, 47(2):449-460
    [7] Goldberg Y.Neural network methods for natural language processing[M].[San Rafael]:Morgan&Claypool Publishers,[2017]
    [8] Goodfellow I, Pouget-Abadie J, Mirza M, et al.Generative Adversarial Networks[J].Communications of the ACM, 2020, 63(11):139-144
    [9] Mirza M, Osindero S.Conditional Generative Adversarial Nets[OL].https://arxiv.org/abs/1411.1784, 2014
    [10] Odena A, Olah C, Shlens J.Conditional Image Synthesis with Auxiliary Classifier GANs[C].//The 34th International Conference on Machine Learning.Sydney, Australia, 2017
    [11] Reed S, Akata Z, Yan X C, et al.Generative Adversarial Text to Image Synthesis[C]//Proceedings of the 33rd International Conference on International Conference on Machine Learning-Volume 48.2016:1060-1069
    [12] Isola P, Zhu J Y, Zhou T H, et al.Image-to-image translation with conditional adversarial networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition.Honolulu, HI, USA:5967-5976
    [13] Nilsback M E, Zisserman A.Automated flower classification over a large number of classes[C]//2008 Sixth Indian Conference on Computer Vision, Graphics&Image Processing.Bhubaneswar, India.:722-729
    [14] Wah C, Branson S, Welinder P, et al.The Caltech-UCSD Birds-200-2011 Dataset[J].California Institute of Technology, 2011, 7(1):1-8
    [15] Zhang H, Xu T, Li H S, et al.StackGAN:text to photo-realistic image synthesis with stacked generative adversarial networks[C]//2017 IEEE International Conference on Computer Vision.Venice, Italy:5908-5916
    [16] Zhang H, Xu T, Li H S, et al.StackGAN:Realistic Image Synthesis with Stacked Generative Adversarial Networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(8):1947-1962
    [17] Mao Q, Lee H Y, Tseng H Y, et al.Mode seeking generative adversarial networks for diverse image synthesis[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach, CA, USA:1429-1437
    [18] Srivastava A, Valkov L, Russell C, et al.VEEGAN:Reducing Mode Collapse in GANs Using Implicit Variational Learning[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems.2017:3310-3320
    [19] Xu T, Zhang P C, Huang Q Y, et al.AttnGAN:fine-grained text to image generation with attentional generative adversarial networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City, UT, USA:1316-1324
    [20] Li B W, Qi X J, Lukasiewicz T, et al.Torr.Controllable Text-to-Image Generation[C]//The International Conference on Neural Information Processing Systems.Vancouver, Canada, 2019
    [21] Borodin A.Determinantal Point Processes[OL].https://arxiv.org/abs/0911.1153, 2009
    [22] Reed S, Akata Z, Lee H, et al.Learning deep representations of fine-grained visual descriptions[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas, NV, USA:49-58
    [23] Zhou J, Xu W.End-to-end learning of semantic role labeling using recurrent neural networks[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1:Long Papers).Beijing, China.2015
    [24] Macchi O.The Coincidence Approach to Stochastic Point Processes[J].Advances in Applied Probability, 1975, 7(1):83-122
    [25] Hough J B, Krishnapur M, Peres Y, et al.Determinantal Processes and Independence[J].Probability Surveys, 2006, 3(1):206-229
    [26] Gong B Q, Chao W L, Grauman K, et al.Diverse Sequential Subset Selection for Supervised Video Summarization[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems-Volume 2.2014:2069-2077
    [27] Elfeki M, Couprie C, Riviere M, et al.GDPP:Learning Diverse Generations Using Determinantal Point Process[OL].https://arxiv.org/abs/1812.00068v1, 2018
    [28] Kulesza A, Taskar B.Structured Determinantal Point Processes[C]//Proceedings of the 23rd International Conference on Neural Information Processing Systems-Volume 1.2010:1171-1179
    [29] Salimans T, Goodfellow I, Zaremba W, et al.Improved Techniques for Training GANs[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems.2016:2234-2242
    [30] Szegedy C, Vanhoucke V, Ioffe S, et al.Rethinking the inception architecture for computer vision[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas, NV, USA:2818-2826
    [31] Heusel M, Ramsauer H, Unterthiner T, et al.GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems.2017:6629-6640
    [32] Zhang Z Z, Xie Y P, Yang L.Photographic text-to-image synthesis with a hierarchically-nested adversarial network[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City, UT, USA:6199-6208
  • [1] 张智宇, 朱昶安, 唐敏, 童若锋.  数据驱动的地外星表通行性分析及数据集生成方法 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20210308
    [2] 陆川伟, 孙群, 赵云鹏, 孙士杰, 马京振, 程绵绵, 李元復.  一种基于条件生成式对抗网络的道路提取方法 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20190159
    [3] 张建兴, 杨柳忠, 于静, 张宁.  基于影像重叠程度的初始接缝线网络生成方法 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20170263
    [4] 王平, 魏征, 崔卫红, 林志勇.  一种基于统计学习理论的最小生成树图像分割准则 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20150345
    [5] 李佳田, 贾成林, 张蓝, 李显凯, 李应芸, 罗富丽.  利用化简分割生成示意性网络地图 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20150010
    [6] 翟卫欣, 程承旗, 童晓冲, 陈波.  利用地球立体剖分格网生成Subdivision R-树索引模型 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20140104
    [7] 沈占锋, 夏列钢, 程 熙, 胡晓东, 骆剑承.  等值线追踪生成等值面过程中的算法策略 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j .whu g is20130621
    [8] 操震洲.  网络多分辨率传输中曲线集的相似性度量模型研究 . 武汉大学学报 ● 信息科学版,
    [9] 徐文学, 杨必胜, 董震, 彭向阳, 麦晓明, 王珂, 高文武.  标记点过程用于点云建筑物提取 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20130044
    [10] 董箭, 彭认灿, 陈轶, 李宁.  一种基于缓冲区边界相向逼近求交模型的曲线间中心线生成算法 . 武汉大学学报 ● 信息科学版,
    [11] 王结臣, 沈定涛, 崔璨.  缓冲区生成的游程刷叠置算法 . 武汉大学学报 ● 信息科学版,
    [12] 王宗跃, 马洪超, 彭检贵, 高广.  基于LiDAR数据生成光滑等高线 . 武汉大学学报 ● 信息科学版,
    [13] 潘俊, 王密, 李德仁.  基于顾及重叠的面Voronoi图的接缝线网络生成方法 . 武汉大学学报 ● 信息科学版,
    [14] 胡鹏, 白轶多, 胡海.  数字高程模型生成中的高程序同构 . 武汉大学学报 ● 信息科学版,
    [15] 袁修孝, 吴珍丽.  基于POS数据的核线影像生成方法 . 武汉大学学报 ● 信息科学版,
    [16] 焦利民, 刘耀林.  土地适宜性评价的模糊神经网络模型 . 武汉大学学报 ● 信息科学版,
    [17] 蒋红斐, 詹振炎.  利用锥构建DEM生成算法的研究 . 武汉大学学报 ● 信息科学版,
    [18] 詹庆明, 黄正东, 吴军.  空间OLE/ActiveX控件的生成与应用 . 武汉大学学报 ● 信息科学版,
    [19] 李成名, 陈军.  Voronoi图生成的栅格算法 . 武汉大学学报 ● 信息科学版,
    [20] 王豪, 黄健, 黄祥, 袁镜清, 贺子城.  一种利用Unity3D模拟崩塌三维运动全过程的方法 . 武汉大学学报 ● 信息科学版, doi: 10.13203/j.whugis20210237
  • 加载中
计量
  • 文章访问数:  102
  • HTML全文浏览量:  11
  • PDF下载量:  8
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-06-21

行列式点过程采样的文本生成图像方法

doi: 10.13203/j.whugis20210373
    基金项目:

    国家自然科学基金(62072394)、河北省自然科学基金(F2021203019)。

    作者简介:

    李晓霖,硕士生,研究方向为生成对抗网络、文本生成图像。imlixlin@163.com

摘要: 近年来,基于生成对抗网络(Generative Adversarial Networks,GAN)的文本生成图像问题取得了很大的突破,它可以根据文本的语义信息生成相应的图像。然而目前生成的图像结果通常缺乏具体的纹理细节,而且经常出现模式崩塌、缺乏多样性等问题。本文针对以上问题,提出一种针对生成对抗网络的行列式点过程方法(Determinant Point Process for Generative AdversarialNetworks,GAN-DPP)来提高模型生成样本的质量,并使用StackGAN++、ControlGAN两种基线模型对GAN-DPP进行实现。在训练过程中,该方法使用行列式点过程核矩阵对真实数据和合成数据的多样性进行建模,并通过引入无监督惩罚损失来鼓励生成器生成与真实数据相似的多样性数据,从而提高生成样本的清晰度及多样性,减轻模型崩塌等问题,并且无需增加额外的训练过程。在CUB和Oxford-102数据集上,通过Inception Score、Fréchet Inception Distance分数、Human Rank三种指标的定量评估,证明了GAN-DPP对生成图像多样性与质量提升的有效性。同时通过定性的可视化比较,证明使用GAN-DPP的模型生成的图像纹理细节更加丰富,多样性显著提高。

English Abstract

李晓霖, 李刚, 张恩琪, 顾广华. 行列式点过程采样的文本生成图像方法[J]. 武汉大学学报 ● 信息科学版. doi: 10.13203/j.whugis20210373
引用本文: 李晓霖, 李刚, 张恩琪, 顾广华. 行列式点过程采样的文本生成图像方法[J]. 武汉大学学报 ● 信息科学版. doi: 10.13203/j.whugis20210373
Li Xiaolin, Li Gang, Zhang Enqi, Gu Guanghua. Determinant Point Process Sampling Method for Text-to-Image Generation[J]. Geomatics and Information Science of Wuhan University. doi: 10.13203/j.whugis20210373
Citation: Li Xiaolin, Li Gang, Zhang Enqi, Gu Guanghua. Determinant Point Process Sampling Method for Text-to-Image Generation[J]. Geomatics and Information Science of Wuhan University. doi: 10.13203/j.whugis20210373
参考文献 (32)

目录

    /

    返回文章
    返回