通过文本描述学习全局图片编辑

Oct, 2018

Learning to Globally Edit Images with Textual Description

Hai Wang, Jason D. Williams, SingBing Kang

TL;DR该研究采用基于 RNN 和 GAN 的三种不同可训练模型实现了全局图像编辑，并使用 Amazon Mechanical Turk 收集文本描述用于训练这些系统，同时发现用 Graph RNN 代替 RNN 可以提高性能。

Abstract

We show how we can globally edit images using textual instructions: given a source image and a textual instruction for the edit, generate a new image transformed under this instruction. To tackle this novel problem, we develop three different trainable models based on →

global image editing textual instructions rnn gan graph rnn

发现论文，激发创造

通过规划学习：语言指导的全局图像编辑

该研究提出了一种基于文本到操作的模型，用于将编辑语言请求转换为一系列可解释且可区分的编辑操作，同时提出了一种操作规划算法以生成从目标图像中的伪地面真实性中可能的编辑序列。

Jun, 2021

基于文本的神经运算：通过文本指令进行图像操作

本研究提出一种基于 GAN 的多模态图片编辑方法，利用自然语言指令局部修改图片特征，实现对包含多个对象的图像进行编辑，并在三个公共数据集上展示出优异的表现，包括更高的保真度和语义相关性以及更好的图像检索性能。

Aug, 2020

文本自适应生成对抗网络：用自然语言编辑图片

本文提出一种文本适应的生成对抗网络 (TAGAN)，用以保留不相关的图片内容，并根据自然语言描述进行图像属性的语义修改。该网络通过创建词级本地判别器，按照输入的文本进行细粒度属性的独立分类，实现只修改特定区域的图像。经实验验证，该方法在 CUB 和 Oxford-102 数据集上比现有方法表现更好。

Oct, 2018

用户指定内容的条件图像生成与操作

提出了一种单一的文本到图像生成和操纵的流程，其中在我们的流程的第一部分，介绍了 TextStyleGAN 这个在文本上进行训练的模型；第二部分使用预训练的 TextStyleGAN 权重进行语义面部图像操纵，并通过在潜空间中找到语义方向来完成。我们展示了该方法可以用于广泛的面部图像属性操纵，并介绍了 CelebTD-HQ 数据集作为 CelebA-HQ 的扩展，其中包含了人脸及相应的文本描述。

May, 2020

生成对抗文本到图像的合成

利用递归神经网络和深度卷积生成对抗网络构建了新的深度架构和 GAN 公式，将字符转换为像素，有效地将文本和图像建模相结合，从而实现了从详细文本描述中生成花和鸟的逼真图像的能力。

May, 2016

通过可学习区域实现基于文本的图像编辑

这篇论文介绍了一种基于文本提示的区域图像编辑方法，无需用户提供的掩码或草图，通过利用现有的预训练文本到图像模型和引入边界框生成器来找到与文本提示对齐的编辑区域，实现了与当前图像生成模型兼容的灵活的编辑，并处理了包含多个对象、复杂句子或长段落的复杂提示。通过广泛的用户研究实验证明我们方法在操纵图像时与提供的语言描述相一致，具有高保真度和逼真度的竞争性表现。

Nov, 2023

基于序列条件的手写文本图像对抗生成

该研究提出了一种基于生成对抗网络的系统，可以合成手写单词的合成图像，并在将其与现有训练数据集集成后通过改进通用 GAN 体系结构进行离线手写文本识别。

Mar, 2019

交互式图像编辑的序列注意力生成对抗网络

提出了一种基于 SeqAttnGAN 模型的交互式图片编辑方法，该模型应用了神经状态跟踪器进行图像和文本描述的编码，并使用 GAN 框架生成与之前图像一致且符合描述的新版本图像，同时为了实现更好的区域特定细化引入了顺序注意机制。在新的任务基准上，实验表明所提出的 SeqAttnGAN 模型在所有评估度量上优于现有方法。

Dec, 2018

轻量级生成对抗网络用于文本引导的图像操纵

我们提出了一种新颖的轻量化生成对抗网络，使用自然语言描述来进行有效的图像操作。我们提出了一种新的单词级别鉴别器，为生成器提供细粒度的单词级别训练反馈，以便训练一个轻量级生成器，该生成器具有少量参数，但仍然能够正确地关注图像的特定视觉属性，然后进行编辑，而不会影响其他未在文本中描述的内容。与现有技术相比，我们的方法具有更少的参数数量，但仍然实现了有竞争力的操作性能。广泛的实验结果表明，我们的方法能够更好地解耦不同的视觉属性，然后正确地将它们映射到相应的语义词汇，从而使用自然语言描述实现更准确的图像修改。

Oct, 2020

零遮挡文本驱动的面部编辑

本研究提出了一种基于任意文本提示的人脸编辑方法，通过在人脸图像上施加矢量流场来表示空间坐标和像素颜色的偏移，其中流向量通过栅格化张量或隐式参数化的神经网络实现，并借助预训练的 Contrastive Language-Image Pretraining~(CLIP) 模型进行优化，实现了高度一致性和图像质量的可解释性人脸编辑结果。

Aug, 2023