只需一個 CLIP，即可將 GAN 進行單次適應

Mar, 2022

只需一個 CLIP，即可將 GAN 進行單次適應

One-Shot Adaptation of GAN in Just One CLIP

Gihyun Kwon, Jong Chul Ye

TL;DR本研究提出了一种采用统一 CLIP 空间变换的单次生成器适应方法，该方法采用基于 CLIP 导向的潜变量优化进行参考图像搜索，并使用新的损失功能进行生成器微调以实现 CLIP 空间一致性。此外，研究者还提出了一种面向 CLIP 空间的路径关系对比正则化方法，以进一步提高生成模型的效果。该方法能够有效地进行属性编辑且具有较好的实验结果。

Abstract

There are many recent research efforts to fine-tune a pre-trained generator with a few target images to generate images of a novel domain. Unfortunately, these methods often suffer from overfitting or under-fitting when fine-tuned with a single target image. To address this, here we present a novel single-shot →

gan fine-tuning clip space patchwise relationships attribute editing

发现论文，激发创造

StyleGAN-NADA：基于 CLIP 引导的图像生成器域自适应

使用大规模对比性语言 - 图像预训练（Contrastive-Language-Image-Pre-training，CLIP）模型极具语义能力的特点，实现了使用文本提示来训练生成模型，无需看到图像的 “盲目” 图像生成方法。通过少量的训练，我们的方法不断适应多个具有不同样式和形状特征的领域，并维持对未来任务有吸引力的潜在空间属性。

Aug, 2021

StyleCLIP: 基于文本的 StyleGAN 图像操作

本文探讨了如何利用 Contrastive Language-Image Pre-training (CLIP) 模型，开发基于文本的 StyleGAN 图像操作界面。新方法不需要人工干预，通过文本提示即可对输入的潜在向量进行修改，并引入了潜在映射器，提高了文本驱动的操作效率。实验表明该方法非常有效。

Mar, 2021

DiffusionCLIP: 文本引导下的扩散模型用于稳健的图像处理

该研究提出了一种名为 DiffusionCLIP 的新方法，该方法使用扩散模型进行文本驱动的图像操作，比现有基线表现更为优异，并允许简便的多属性操作。

Oct, 2021

CgT-GAN：基于 CLIP 引导的文本 GAN 用于图像字幕生成

提出了一个 CLIP 引导的文本生成对抗网络 (CgT-GAN) 模型，通过引入图像数据进行训练，结合语义指导奖励 (CLIP-based reward) 和生成文本的自然度奖励来生成与外部语料库相似的文字。在实验证明，CgT-GAN 在各项指标上明显优于现有的最先进方法。

Aug, 2023

通过语义变化提高零样本 GAN 适应性中的多样性

通过在 CLIP 空间中找到目标文本的语义变化，设计一种新颖的方向矩损失函数，以匹配图像和文本方向分布的一、二阶矩，并引入弹性权重合并和关系一致性损失，确保了零样本 GAN 适应中样本多样性和质量的最新最有效方法。

Aug, 2023

单镜头域自适应的域间差异控制：一个生成对抗网络方法

介绍了一种用于一次性域自适应的新方法，使用训练有素的 GAN 可以在域 A 和域 B 中生成图像，通过提出的算法可以将训练有素的 GAN 的任何输出从域 A 转换到域 B，相对于目前的技术水平，该解决方案有两个主要优点：首先，我们的解决方案实现了更高的视觉质量，例如显着减少了过度拟合；其次，我们的解决方案允许更多的自由度来控制域差距，即使用图像 I_B 的哪些方面来定义域 B。

Oct, 2021

GALIP: 文本到图像生成的生成对抗 CLIPs

使用 CLIP 模型作为生成对抗网络中的鉴别器和生成器，我们提出 Generative Adversarial CLIPs（GALIP），以实现高质量、高效、快速且可控的文本到图像合成，同时减少训练数据和可学习参数。

Jan, 2023

CLIP 引导下的 StyleGAN 反演方法用于文本驱动的真实图像编辑

本文提出了一种新的基于文本的图像编辑方法 CLIPInverter，通过在预训练的 GAN 反演网络中集成轻量级文本适配器层，以目标描述的 CLIP 嵌入为条件进行初始反演步骤的条件化，通过使用 CLIP 引导的细化步骤来对结果残留潜在编码进行更正，从而实现了高效稳定地进行多属性更改，因此在各个领域，包括人类脸部，猫和鸟类方面，我们的方法在操作精度和真实度方面均表现优异。

Jul, 2023

TextCLIP：无对抗训练的文本指导人脸图像生成与操作

提出了 TextCLIP，这是一个统一的框架，用于无对抗训练的文本引导的图像生成和操作，通过对 Contrastive Language-Image Pre-training (CLIP) 的文本图像表示能力和 StyleGAN 的生成能力的结合，能够生成高达 1024×1024 分辨率的图像，并在 Multi-modal CelebA-HQ 数据集上取得了优于现有最先进方法的结果。

Sep, 2023

通过 CLIP 实现反事实图像处理

通过 Contrastive-Language-Image- Pretraining (CLIP) 进行对抗操作，利用预定义的 CLIP 空间方向指导编辑，并将文本嵌入显式地转换为潜在空间，以实现准确的编码和编辑。

Jul, 2022