ManiGAN: 文本导向的图像操作
本文提出一种文本适应的生成对抗网络(TAGAN),用以保留不相关的图片内容,并根据自然语言描述进行图像属性的语义修改。该网络通过创建词级本地判别器,按照输入的文本进行细粒度属性的独立分类,实现只修改特定区域的图像。经实验验证,该方法在 CUB 和 Oxford-102 数据集上比现有方法表现更好。
Oct, 2018
提出了一种单一的文本到图像生成和操纵的流程,其中在我们的流程的第一部分,介绍了 TextStyleGAN 这个在文本上进行训练的模型;第二部分使用预训练的 TextStyleGAN 权重进行语义面部图像操纵,并通过在潜空间中找到语义方向来完成。我们展示了该方法可以用于广泛的面部图像属性操纵,并介绍了 CelebTD-HQ 数据集作为 CelebA-HQ 的扩展,其中包含了人脸及相应的文本描述。
May, 2020
我们提出了一种新颖的轻量化生成对抗网络,使用自然语言描述来进行有效的图像操作。我们提出了一种新的单词级别鉴别器,为生成器提供细粒度的单词级别训练反馈,以便训练一个轻量级生成器,该生成器具有少量参数,但仍然能够正确地关注图像的特定视觉属性,然后进行编辑,而不会影响其他未在文本中描述的内容。与现有技术相比,我们的方法具有更少的参数数量,但仍然实现了有竞争力的操作性能。广泛的实验结果表明,我们的方法能够更好地解耦不同的视觉属性,然后正确地将它们映射到相应的语义词汇,从而使用自然语言描述实现更准确的图像修改。
Oct, 2020
本文探讨了如何利用 Contrastive Language-Image Pre-training (CLIP) 模型,开发基于文本的 StyleGAN 图像操作界面。新方法不需要人工干预,通过文本提示即可对输入的潜在向量进行修改,并引入了潜在映射器,提高了文本驱动的操作效率。实验表明该方法非常有效。
Mar, 2021
本文提出了一种快速高效的以文本驱动的图像生成和操控方法——StyleMC,利用CLIP的loss和identity loss进行图像操控,不需要工程设计,仅需少量文本prompt训练即可找到稳定的全局direction,比之前的方法更加高效
Dec, 2021
本研究提出基于transformer的框架ManiTrans来实现文本引导下的实体级别图像操作,结合语义对齐模块和语义损失,成功应用于真实世界的数据集上,与基准方法相比实现更精密和灵活的操作。
Apr, 2022
本文提出了一个面对无监督学习的编译型操作循环一致性生成对抗网络(cManiGAN)来处理目标自由的文本引导图像操作问题,并在实验中证实了该方法在CLEVR和COCO数据集上的有效性和通用性。
Nov, 2022
本文提出了一种新的基于文本的图像编辑方法CLIPInverter,通过在预训练的GAN反演网络中集成轻量级文本适配器层,以目标描述的CLIP嵌入为条件进行初始反演步骤的条件化,通过使用CLIP引导的细化步骤来对结果残留潜在编码进行更正,从而实现了高效稳定地进行多属性更改,因此在各个领域,包括人类脸部,猫和鸟类方面,我们的方法在操作精度和真实度方面均表现优异。
Jul, 2023
提出了TextCLIP,这是一个统一的框架,用于无对抗训练的文本引导的图像生成和操作,通过对Contrastive Language-Image Pre-training (CLIP)的文本图像表示能力和StyleGAN的生成能力的结合,能够生成高达1024×1024分辨率的图像,并在Multi-modal CelebA-HQ数据集上取得了优于现有最先进方法的结果。
Sep, 2023
本研究解决了文本引导图像修复中图像与文本之间对齐以及破损区域与未破损区域分布一致性的问题。提出的双仿射变换生成对抗网络(DAFT-GAN)通过逐步结合文本和图像特征,保持语义一致性,并通过分别编码破损和未破损区域来最小化信息泄露。该模型在MS-COCO、CUB和Oxford三套基准数据集上,在定性和定量评估中优于现有的基于GAN的模型。
Aug, 2024