交互式图像编辑的序列注意力生成对抗网络

MMDec, 2018

交互式图像编辑的序列注意力生成对抗网络

Sequential Attention GAN for Interactive Image Editing

Yu Cheng, Zhe Gan, Yitong Li, Jingjing Liu, Jianfeng Gao

TL;DR提出了一种基于 SeqAttnGAN 模型的交互式图片编辑方法，该模型应用了神经状态跟踪器进行图像和文本描述的编码，并使用 GAN 框架生成与之前图像一致且符合描述的新版本图像，同时为了实现更好的区域特定细化引入了顺序注意机制。在新的任务基准上，实验表明所提出的 SeqAttnGAN 模型在所有评估度量上优于现有方法。

Abstract

Most existing text-to-image synthesis tasks are static single-turn generation, based on pre-defined textual descriptions of images. To explore more practical and interactive real-life applications, we introduce a new task - →

text-to-image synthesis interactive image editing sequential attention mechanism neural state tracker gan framework

发现论文，激发创造

一种简单有效的注意力生成对抗网络基准模型

通过改进背骨网络和损失集成方法提出了 SEAttnGAN，它是一种高质量图像到文本模型，可以通过引导生成模型来提高其性能和质量。

Jun, 2023

SegAttnGAN: 带有分割注意力的文本到图像生成

本文提出了一种新颖的生成网络（SegAttnGAN），该网络利用附加的分割信息来进行文本到图像综合任务，通过引入分割数据对生成器训练提供有用的指导，相较于之前的最先进技术，本模型可以生成更具真实感和更高量化准确性的图像，我们在 CUB 数据集上获得了 4.84 的内在分数和在 Oxford-102 数据集上获得了 3.52 的分数。此外，我们还测试了自我关注 SegAttnGAN，该模型使用生成的分割数据而非数据集的掩码进行注意，并获得了类似的高质量结果，说明我们的模型可用于文本到图像综合任务。

May, 2020

AttnGAN: 使用注意力生成对抗网络进行精细化文本到图像生成

本文介绍了一种利用注意力机制生成对抗网络的方法，能够通过自然语言描述中的相关单词对图像的不同子区域进行精细的细节合成，并提出了一种深度的注意力多模式相似度模型，用于训练这个生成器。实验结果显示，在两个数据集上，这种注意力机制生成对抗网络都优于先前的最先进方法。

Nov, 2017

StoryGAN：用于故事可视化的序贯条件 GAN

本研究提出了一种新的任务 —— 故事可视化，为每个句子生成一张图像，针对图像连续性与场景和角色的全局一致性的挑战，构建了基于顺序条件 GAN 框架的故事到图像序列生成模型 ——StoryGAN，并通过质量和一致性指标优于现有模型。

Dec, 2018

通过对抗训练实现基于物体的文本到图像合成

本文提出了一种基于对物体的关注的生成对抗网络，可用于复杂场景的文本到图像合成，该网络生成器长注重于文本描述中最相关的单词和预生成的语义布局，以合成显著物体，同时提出了一种快速区域卷积神经网络（Fast R-CNN）的新技术，以提供丰富的针对对象的区分信号，判断生成的物体与文本描述和预生成布局是否匹配。该提出的 Obj-GAN 在大规模 COCO 基准测试中表现出色，提高了 27％的 Inception 分数并降低了 11％的 FID 分数。通过分析它们的机制和可视化他们的注意层，提供了传统网格注意和新型对象驱动注意之间的全面比较，展示了本模型如何高质量地生成复杂场景的见解。

Feb, 2019

通过文本描述学习全局图片编辑

该研究采用基于 RNN 和 GAN 的三种不同可训练模型实现了全局图像编辑，并使用 Amazon Mechanical Turk 收集文本描述用于训练这些系统，同时发现用 Graph RNN 代替 RNN 可以提高性能。

Oct, 2018

基于注意力引导的生成对抗网络的无监督图像转换

本文提出了基于注意力机制的生成对抗网络 AGGAN，在生成图像时使用内置的注意力机制检测最具有辨别性的语义部分并最小化不需要的部分的变化，训练过程中同时考虑对抗损失、循环一致性损失、像素损失和注意力损失，实验表明 AGGAN 比现有模型能够生成更加清晰和准确的图像。

Mar, 2019

使用堆叠生成对抗网络实现文本到逼真图像的合成

本文提出 StackGAN，借助生成对抗网络，通过文本生成真实的 256x256 图像，经过两个 GAN 进行图像细节加强和修复，并且引入新的条件增强技术以提高图像多样性和稳定性，并取得了重大进展。

Dec, 2016

用户指定内容的条件图像生成与操作

提出了一种单一的文本到图像生成和操纵的流程，其中在我们的流程的第一部分，介绍了 TextStyleGAN 这个在文本上进行训练的模型；第二部分使用预训练的 TextStyleGAN 权重进行语义面部图像操纵，并通过在潜空间中找到语义方向来完成。我们展示了该方法可以用于广泛的面部图像属性操纵，并介绍了 CelebTD-HQ 数据集作为 CelebA-HQ 的扩展，其中包含了人脸及相应的文本描述。

May, 2020

基于自注意力的生成式对抗网络用于无监督视频摘要

本文通过引入自注意力机制和 Transformer 在视频总结中建模时间关系，以无监督的方法通过对抗性学习生成代表性摘要，并提出 SUM-GAN-AED 模型，评估结果表明，使用自我注意力机制作为帧选择机制在 SumMe 上优于现有技术，并在 TVSum 和 COGNIMUSE 上具有接近现有技术的性能。

Jul, 2023