通过文本描述学习全局图片编辑
该研究提出了一种基于文本到操作的模型,用于将编辑语言请求转换为一系列可解释且可区分的编辑操作,同时提出了一种操作规划算法以生成从目标图像中的伪地面真实性中可能的编辑序列。
Jun, 2021
本研究提出一种基于 GAN 的多模态图片编辑方法,利用自然语言指令局部修改图片特征,实现对包含多个对象的图像进行编辑,并在三个公共数据集上展示出优异的表现,包括更高的保真度和语义相关性以及更好的图像检索性能。
Aug, 2020
本文提出一种文本适应的生成对抗网络 (TAGAN),用以保留不相关的图片内容,并根据自然语言描述进行图像属性的语义修改。该网络通过创建词级本地判别器,按照输入的文本进行细粒度属性的独立分类,实现只修改特定区域的图像。经实验验证,该方法在 CUB 和 Oxford-102 数据集上比现有方法表现更好。
Oct, 2018
提出了一种单一的文本到图像生成和操纵的流程,其中在我们的流程的第一部分,介绍了 TextStyleGAN 这个在文本上进行训练的模型;第二部分使用预训练的 TextStyleGAN 权重进行语义面部图像操纵,并通过在潜空间中找到语义方向来完成。我们展示了该方法可以用于广泛的面部图像属性操纵,并介绍了 CelebTD-HQ 数据集作为 CelebA-HQ 的扩展,其中包含了人脸及相应的文本描述。
May, 2020
利用递归神经网络和深度卷积生成对抗网络构建了新的深度架构和 GAN 公式,将字符转换为像素,有效地将文本和图像建模相结合,从而实现了从详细文本描述中生成花和鸟的逼真图像的能力。
May, 2016
这篇论文介绍了一种基于文本提示的区域图像编辑方法,无需用户提供的掩码或草图,通过利用现有的预训练文本到图像模型和引入边界框生成器来找到与文本提示对齐的编辑区域,实现了与当前图像生成模型兼容的灵活的编辑,并处理了包含多个对象、复杂句子或长段落的复杂提示。通过广泛的用户研究实验证明我们方法在操纵图像时与提供的语言描述相一致,具有高保真度和逼真度的竞争性表现。
Nov, 2023
该研究提出了一种基于生成对抗网络的系统,可以合成手写单词的合成图像,并在将其与现有训练数据集集成后通过改进通用 GAN 体系结构进行离线手写文本识别。
Mar, 2019
提出了一种基于 SeqAttnGAN 模型的交互式图片编辑方法,该模型应用了神经状态跟踪器进行图像和文本描述的编码,并使用 GAN 框架生成与之前图像一致且符合描述的新版本图像,同时为了实现更好的区域特定细化引入了顺序注意机制。在新的任务基准上,实验表明所提出的 SeqAttnGAN 模型在所有评估度量上优于现有方法。
Dec, 2018
我们提出了一种新颖的轻量化生成对抗网络,使用自然语言描述来进行有效的图像操作。我们提出了一种新的单词级别鉴别器,为生成器提供细粒度的单词级别训练反馈,以便训练一个轻量级生成器,该生成器具有少量参数,但仍然能够正确地关注图像的特定视觉属性,然后进行编辑,而不会影响其他未在文本中描述的内容。与现有技术相比,我们的方法具有更少的参数数量,但仍然实现了有竞争力的操作性能。广泛的实验结果表明,我们的方法能够更好地解耦不同的视觉属性,然后正确地将它们映射到相应的语义词汇,从而使用自然语言描述实现更准确的图像修改。
Oct, 2020
本研究提出了一种基于任意文本提示的人脸编辑方法,通过在人脸图像上施加矢量流场来表示空间坐标和像素颜色的偏移,其中流向量通过栅格化张量或隐式参数化的神经网络实现,并借助预训练的 Contrastive Language-Image Pretraining~(CLIP) 模型进行优化,实现了高度一致性和图像质量的可解释性人脸编辑结果。
Aug, 2023