只需一個 CLIP,即可將 GAN 進行單次適應
使用大规模对比性语言 - 图像预训练(Contrastive-Language-Image-Pre-training,CLIP)模型极具语义能力的特点,实现了使用文本提示来训练生成模型,无需看到图像的 “盲目” 图像生成方法。通过少量的训练,我们的方法不断适应多个具有不同样式和形状特征的领域,并维持对未来任务有吸引力的潜在空间属性。
Aug, 2021
本文探讨了如何利用 Contrastive Language-Image Pre-training (CLIP) 模型,开发基于文本的 StyleGAN 图像操作界面。新方法不需要人工干预,通过文本提示即可对输入的潜在向量进行修改,并引入了潜在映射器,提高了文本驱动的操作效率。实验表明该方法非常有效。
Mar, 2021
该研究提出了一种名为 DiffusionCLIP 的新方法,该方法使用扩散模型进行文本驱动的图像操作,比现有基线表现更为优异,并允许简便的多属性操作。
Oct, 2021
提出了一个 CLIP 引导的文本生成对抗网络 (CgT-GAN) 模型,通过引入图像数据进行训练,结合语义指导奖励 (CLIP-based reward) 和生成文本的自然度奖励来生成与外部语料库相似的文字。在实验证明,CgT-GAN 在各项指标上明显优于现有的最先进方法。
Aug, 2023
通过在 CLIP 空间中找到目标文本的语义变化,设计一种新颖的方向矩损失函数,以匹配图像和文本方向分布的一、二阶矩,并引入弹性权重合并和关系一致性损失,确保了零样本 GAN 适应中样本多样性和质量的最新最有效方法。
Aug, 2023
介绍了一种用于一次性域自适应的新方法,使用训练有素的 GAN 可以在域 A 和域 B 中生成图像,通过提出的算法可以将训练有素的 GAN 的任何输出从域 A 转换到域 B,相对于目前的技术水平,该解决方案有两个主要优点:首先,我们的解决方案实现了更高的视觉质量,例如显着减少了过度拟合;其次,我们的解决方案允许更多的自由度来控制域差距,即使用图像 I_B 的哪些方面来定义域 B。
Oct, 2021
使用 CLIP 模型作为生成对抗网络中的鉴别器和生成器,我们提出 Generative Adversarial CLIPs(GALIP),以实现高质量、高效、快速且可控的文本到图像合成,同时减少训练数据和可学习参数。
Jan, 2023
本文提出了一种新的基于文本的图像编辑方法 CLIPInverter,通过在预训练的 GAN 反演网络中集成轻量级文本适配器层,以目标描述的 CLIP 嵌入为条件进行初始反演步骤的条件化,通过使用 CLIP 引导的细化步骤来对结果残留潜在编码进行更正,从而实现了高效稳定地进行多属性更改,因此在各个领域,包括人类脸部,猫和鸟类方面,我们的方法在操作精度和真实度方面均表现优异。
Jul, 2023
提出了 TextCLIP,这是一个统一的框架,用于无对抗训练的文本引导的图像生成和操作,通过对 Contrastive Language-Image Pre-training (CLIP) 的文本图像表示能力和 StyleGAN 的生成能力的结合,能够生成高达 1024×1024 分辨率的图像,并在 Multi-modal CelebA-HQ 数据集上取得了优于现有最先进方法的结果。
Sep, 2023
通过 Contrastive-Language-Image- Pretraining (CLIP) 进行对抗操作,利用预定义的 CLIP 空间方向指导编辑,并将文本嵌入显式地转换为潜在空间,以实现准确的编码和编辑。
Jul, 2022