通过对抗训练实现基于物体的文本到图像合成

CVPRFeb, 2019

通过对抗训练实现基于物体的文本到图像合成

Object-driven Text-to-Image Synthesis via Adversarial Training

Wenbo Li, Pengchuan Zhang, Lei Zhang, Qiuyuan Huang, Xiaodong He...

TL;DR本文提出了一种基于对物体的关注的生成对抗网络，可用于复杂场景的文本到图像合成，该网络生成器长注重于文本描述中最相关的单词和预生成的语义布局，以合成显著物体，同时提出了一种快速区域卷积神经网络（Fast R-CNN）的新技术，以提供丰富的针对对象的区分信号，判断生成的物体与文本描述和预生成布局是否匹配。该提出的 Obj-GAN 在大规模 COCO 基准测试中表现出色，提高了 27％的 Inception 分数并降低了 11％的 FID 分数。通过分析它们的机制和可视化他们的注意层，提供了传统网格注意和新型对象驱动注意之间的全面比较，展示了本模型如何高质量地生成复杂场景的见解。

Abstract

In this paper, we propose Object-driven Attentive Generative Adversarial Newtorks (Obj-GANs) that allow object-centered text-to-image synthesis for complex scenes. Following the two-step (layout-image) generation

object-driven attentive generative adversarial networks text-to-image synthesis object-centered salient object generation fast r-cnn

发现论文，激发创造

AttnGAN: 使用注意力生成对抗网络进行精细化文本到图像生成

本文介绍了一种利用注意力机制生成对抗网络的方法，能够通过自然语言描述中的相关单词对图像的不同子区域进行精细的细节合成，并提出了一种深度的注意力多模式相似度模型，用于训练这个生成器。实验结果显示，在两个数据集上，这种注意力机制生成对抗网络都优于先前的最先进方法。

Nov, 2017

基于注意力引导的生成对抗网络的无监督图像转换

本文提出了基于注意力机制的生成对抗网络 AGGAN，在生成图像时使用内置的注意力机制检测最具有辨别性的语义部分并最小化不需要的部分的变化，训练过程中同时考虑对抗损失、循环一致性损失、像素损失和注意力损失，实验表明 AGGAN 比现有模型能够生成更加清晰和准确的图像。

Mar, 2019

MC-GAN：多条件生成对抗网络用于图像合成

本文提出了一种新方法，为生成目标图像，通过掌握给定背景信息，由文本属性生成目标物体图像，特别关注了控制物体和背景信息总和的多条件生成对抗网络方法（MC-GAN），在训练阶段通过生成物体和背景信息的合成块来实现。文中应用于实验，如 Caltech-200 鸟和 Oxford-102 花数据集，能够生成具有 128 x 128 分辨率的相片逼真的图像。

May, 2018

从布局生成物体中心的图像

本文提出了一种基于 Object-Centric GAN 的图像生成方法，使用 Scene-Graph Similarity Module 学习场景中物体之间的关系，并在生成器的条件机制上进行了改进，通过实验证明了该方法在生成多物体场景图像的质量和准确性方面的优势。

Mar, 2020

生成对抗文本到图像的合成

利用递归神经网络和深度卷积生成对抗网络构建了新的深度架构和 GAN 公式，将字符转换为像素，有效地将文本和图像建模相结合，从而实现了从详细文本描述中生成花和鸟的逼真图像的能力。

May, 2016

SegAttnGAN: 带有分割注意力的文本到图像生成

本文提出了一种新颖的生成网络（SegAttnGAN），该网络利用附加的分割信息来进行文本到图像综合任务，通过引入分割数据对生成器训练提供有用的指导，相较于之前的最先进技术，本模型可以生成更具真实感和更高量化准确性的图像，我们在 CUB 数据集上获得了 4.84 的内在分数和在 Oxford-102 数据集上获得了 3.52 的分数。此外，我们还测试了自我关注 SegAttnGAN，该模型使用生成的分割数据而非数据集的掩码进行注意，并获得了类似的高质量结果，说明我们的模型可用于文本到图像综合任务。

May, 2020

AttentionGAN: 利用 Attention 引导的生成对抗网络实现非配对图像转换

本文提出了一种新的基于注意力向导的生成对抗网络 (AttentionGAN)，通过生成注意力掩码来识别最具区别性的前景物体，并将生成的输出融合到注意力掩码中，从而获得高质量的目标图像，实验表明，相较于现有的竞争模型，该方法能够生成更鲜明和更现实的图像。

Nov, 2019

一种简单有效的注意力生成对抗网络基准模型

通过改进背骨网络和损失集成方法提出了 SEAttnGAN，它是一种高质量图像到文本模型，可以通过引导生成模型来提高其性能和质量。

Jun, 2023

可控的文本到图像生成

该论文提出了一种新颖的可控文本到图像生成对抗网络 (ControlGAN)，它能够有效地合成高质量图像并根据自然语言描述控制图像的生成。该方法采用词级空间和通道注意力机制对不同的视觉属性进行分离，并通过词级鉴别器提供细粒度的监督反馈，使生成器能够对特定的视觉属性进行操作。通过大量的实验证明，我们的方法优于现有的最先进技术，并能够通过自然语言描述有效地操作合成图像。

Sep, 2019

文本自适应生成对抗网络：用自然语言编辑图片

本文提出一种文本适应的生成对抗网络 (TAGAN)，用以保留不相关的图片内容，并根据自然语言描述进行图像属性的语义修改。该网络通过创建词级本地判别器，按照输入的文本进行细粒度属性的独立分类，实现只修改特定区域的图像。经实验验证，该方法在 CUB 和 Oxford-102 数据集上比现有方法表现更好。

Oct, 2018