交互式图像编辑的序列注意力生成对抗网络
本文提出了一种新颖的生成网络(SegAttnGAN),该网络利用附加的分割信息来进行文本到图像综合任务,通过引入分割数据对生成器训练提供有用的指导,相较于之前的最先进技术,本模型可以生成更具真实感和更高量化准确性的图像,我们在 CUB 数据集上获得了 4.84 的内在分数和在 Oxford-102 数据集上获得了 3.52 的分数。此外,我们还测试了自我关注 SegAttnGAN,该模型使用生成的分割数据而非数据集的掩码进行注意,并获得了类似的高质量结果,说明我们的模型可用于文本到图像综合任务。
May, 2020
本文介绍了一种利用注意力机制生成对抗网络的方法,能够通过自然语言描述中的相关单词对图像的不同子区域进行精细的细节合成,并提出了一种深度的注意力多模式相似度模型,用于训练这个生成器。实验结果显示,在两个数据集上,这种注意力机制生成对抗网络都优于先前的最先进方法。
Nov, 2017
本研究提出了一种新的任务 —— 故事可视化,为每个句子生成一张图像,针对图像连续性与场景和角色的全局一致性的挑战,构建了基于顺序条件 GAN 框架的故事到图像序列生成模型 ——StoryGAN,并通过质量和一致性指标优于现有模型。
Dec, 2018
本文提出了一种基于对物体的关注的生成对抗网络,可用于复杂场景的文本到图像合成,该网络生成器长注重于文本描述中最相关的单词和预生成的语义布局,以合成显著物体,同时提出了一种快速区域卷积神经网络(Fast R-CNN)的新技术,以提供丰富的针对对象的区分信号,判断生成的物体与文本描述和预生成布局是否匹配。该提出的 Obj-GAN 在大规模 COCO 基准测试中表现出色,提高了 27%的 Inception 分数并降低了 11%的 FID 分数。通过分析它们的机制和可视化他们的注意层,提供了传统网格注意和新型对象驱动注意之间的全面比较,展示了本模型如何高质量地生成复杂场景的见解。
Feb, 2019
该研究采用基于 RNN 和 GAN 的三种不同可训练模型实现了全局图像编辑,并使用 Amazon Mechanical Turk 收集文本描述用于训练这些系统,同时发现用 Graph RNN 代替 RNN 可以提高性能。
Oct, 2018
本文提出了基于注意力机制的生成对抗网络 AGGAN,在生成图像时使用内置的注意力机制检测最具有辨别性的语义部分并最小化不需要的部分的变化,训练过程中同时考虑对抗损失、循环一致性损失、像素损失和注意力损失,实验表明 AGGAN 比现有模型能够生成更加清晰和准确的图像。
Mar, 2019
本文提出 StackGAN,借助生成对抗网络,通过文本生成真实的 256x256 图像,经过两个 GAN 进行图像细节加强和修复,并且引入新的条件增强技术以提高图像多样性和稳定性,并取得了重大进展。
Dec, 2016
提出了一种单一的文本到图像生成和操纵的流程,其中在我们的流程的第一部分,介绍了 TextStyleGAN 这个在文本上进行训练的模型;第二部分使用预训练的 TextStyleGAN 权重进行语义面部图像操纵,并通过在潜空间中找到语义方向来完成。我们展示了该方法可以用于广泛的面部图像属性操纵,并介绍了 CelebTD-HQ 数据集作为 CelebA-HQ 的扩展,其中包含了人脸及相应的文本描述。
May, 2020
本文通过引入自注意力机制和 Transformer 在视频总结中建模时间关系,以无监督的方法通过对抗性学习生成代表性摘要,并提出 SUM-GAN-AED 模型,评估结果表明,使用自我注意力机制作为帧选择机制在 SumMe 上优于现有技术,并在 TVSum 和 COGNIMUSE 上具有接近现有技术的性能。
Jul, 2023