基于文本的无目标图像操纵
使用生成式对抗网络实现语义编辑,用文本描述所需属性对图像进行编辑和纠正匹配,生成新的属性,同时保留无关的原始内容。在 CUB 和 COCO 数据集上的实验证明了该方法的卓越性能。
Dec, 2019
本文提出了基于文本指导的实体级别真实世界图像操纵方法 SeMani,通过语义对齐和图像操纵两个阶段,使用离散自回归生成和扩散模型连续去噪生成开发了两个版本的生成过程,对 CUB,Oxford 和 COCO 数据集进行了实验验证。
Feb, 2023
本研究提出基于 transformer 的框架 ManiTrans 来实现文本引导下的实体级别图像操作,结合语义对齐模块和语义损失,成功应用于真实世界的数据集上,与基准方法相比实现更精密和灵活的操作。
Apr, 2022
本研究提出一种基于 GAN 的多模态图片编辑方法,利用自然语言指令局部修改图片特征,实现对包含多个对象的图像进行编辑,并在三个公共数据集上展示出优异的表现,包括更高的保真度和语义相关性以及更好的图像检索性能。
Aug, 2020
提出了 TextCLIP,这是一个统一的框架,用于无对抗训练的文本引导的图像生成和操作,通过对 Contrastive Language-Image Pre-training (CLIP) 的文本图像表示能力和 StyleGAN 的生成能力的结合,能够生成高达 1024×1024 分辨率的图像,并在 Multi-modal CelebA-HQ 数据集上取得了优于现有最先进方法的结果。
Sep, 2023
本文提出了一种新颖的循环一致性逆向生成对抗网络 (CI-GAN) 框架,用于文本到图像生成和文本引导下的图像操作任务,在该框架中,我们采用循环一致性训练来学习更加稳健一致的潜变量,并通过学习文本表示与潜变量之间的相似度模型,在文本引导的优化模块中生成具有所需语义属性的图像,实验证明该框架具有良好的性能。
Aug, 2021
该研究提出了一种统一框架来生成和处理面部图像,基于预训练的 GAN 模型,使用两种新颖的策略,直接优化潜在空间的潜在编码以获取多模式输入的图像生成和操纵,并提出了一个大型数据集 Multi-Modal CelebA-HQ。
Apr, 2021
本研究提出了一种基于复杂文本描述的图像编辑方法,在文本相关部分对输入的图像进行修改,并引入用户界面对生成的图像进行交互式重新修改,实现实时交互、灵活和准确的图像操作。
Nov, 2022
该论文提出了一种新颖的可控文本到图像生成对抗网络 (ControlGAN),它能够有效地合成高质量图像并根据自然语言描述控制图像的生成。该方法采用词级空间和通道注意力机制对不同的视觉属性进行分离,并通过词级鉴别器提供细粒度的监督反馈,使生成器能够对特定的视觉属性进行操作。通过大量的实验证明,我们的方法优于现有的最先进技术,并能够通过自然语言描述有效地操作合成图像。
Sep, 2019
本文提出一种文本适应的生成对抗网络 (TAGAN),用以保留不相关的图片内容,并根据自然语言描述进行图像属性的语义修改。该网络通过创建词级本地判别器,按照输入的文本进行细粒度属性的独立分类,实现只修改特定区域的图像。经实验验证,该方法在 CUB 和 Oxford-102 数据集上比现有方法表现更好。
Oct, 2018