通过 CLIP 实现反事实图像处理

MMJul, 2022

Towards Counterfactual Image Manipulation via CLIP

Yingchen Yu, Fangneng Zhan, Rongliang Wu, Jiahui Zhang, Shijian Lu...

TL;DR通过 Contrastive-Language-Image- Pretraining (CLIP) 进行对抗操作，利用预定义的 CLIP 空间方向指导编辑，并将文本嵌入显式地转换为潜在空间，以实现准确的编码和编辑。

Abstract

Leveraging stylegan's expressivity and its disentangled latent codes, existing methods can achieve realistic editing of different visual attributes such as age and gender of facial images. An intriguing yet chall

generative models counterfactual editing clip stylegan latent codes

发现论文，激发创造

StyleCLIP: 基于文本的 StyleGAN 图像操作

本文探讨了如何利用 Contrastive Language-Image Pre-training (CLIP) 模型，开发基于文本的 StyleGAN 图像操作界面。新方法不需要人工干预，通过文本提示即可对输入的潜在向量进行修改，并引入了潜在映射器，提高了文本驱动的操作效率。实验表明该方法非常有效。

Mar, 2021

CLIP 引导下的 StyleGAN 反演方法用于文本驱动的真实图像编辑

本文提出了一种新的基于文本的图像编辑方法 CLIPInverter，通过在预训练的 GAN 反演网络中集成轻量级文本适配器层，以目标描述的 CLIP 嵌入为条件进行初始反演步骤的条件化，通过使用 CLIP 引导的细化步骤来对结果残留潜在编码进行更正，从而实现了高效稳定地进行多属性更改，因此在各个领域，包括人类脸部，猫和鸟类方面，我们的方法在操作精度和真实度方面均表现优异。

Jul, 2023

TextCLIP：无对抗训练的文本指导人脸图像生成与操作

提出了 TextCLIP，这是一个统一的框架，用于无对抗训练的文本引导的图像生成和操作，通过对 Contrastive Language-Image Pre-training (CLIP) 的文本图像表示能力和 StyleGAN 的生成能力的结合，能够生成高达 1024×1024 分辨率的图像，并在 Multi-modal CelebA-HQ 数据集上取得了优于现有最先进方法的结果。

Sep, 2023

使用 CLIP 潜变量的分层文本条件图像生成

提出一个两阶段模型，先用 prior 生成 CLIP 图像嵌入，再由 decoder 在图像嵌入的条件下生成图像。实验表明该模型可以提高图像的多样性，并在完美保留语义和风格前提下变化非必要的细节。利用扩散模型作为 decoder, 同时使用自回归和扩散模型作为 prior，发现后者更加高效且产生的样本更优。

Apr, 2022

他们都是医生：合成各种对抗偏见的反事实案例

通过生成合成的反事实图像集合，采用脱节模型训练方法来改善 Vision Language Models（VLMs）的公平性和性能。

Jun, 2024

反事实图像编辑

反事实图像编辑是生成式人工智能中的重要任务，本文提出了一种利用增强的结构因果模型来建模潜在生成因子与图像之间的因果关系，并通过一种新的家族反事实一致估计器对非可识别的反事实分布进行近似，以解决此挑战性问题。

Feb, 2024

CLIP2StyleGAN：无监督提取 StyleGAN 编辑方向

本文提出一种方法将 StyleGAN 和 CLIP 的预训练潜空间有效链接，从而能够自动从 StyleGAN 中提取语义标注的编辑方向，找到并命名有意义的编辑操作，而不需要任何额外的人类指导

Dec, 2021

StyleMC: 基于多通道快速文字引导的图像生成和操作

本文提出了一种快速高效的以文本驱动的图像生成和操控方法 ——StyleMC，利用 CLIP 的 loss 和 identity loss 进行图像操控，不需要工程设计，仅需少量文本 prompt 训练即可找到稳定的全局 direction，比之前的方法更加高效

Dec, 2021

CounterCurate：通过反事实的例子增强物理和语义的视觉 - 语言组合推理能力

通过 CounterCurate 框架，综合改善对比式和生成式多模态模型的视觉 - 语言组合推理能力，通过解决忽视物理基础推理（计数和位置理解）和使用高能力文本和图像生成模型进行语义反事实微调的潜力等两个问题来提高推理性能。

Feb, 2024

一种鲁棒的文本驱动图像编辑方法：自适应探索 StyleGAN 和 CLIP 潜空间中的方向

我们提出了一种使用 SVM 在 StyleGAN 和 CLIP 空间自适应构建编辑方向的方法，将大规模图像语料库中与文本指令相似的图像通过 CLIP 相似性检索，用 SVM 训练正负图像分类器将编辑方向表示为 CLIP 空间中的法向量，并验证其性能与 StyleCLIP 基准一致，而且不会增加计算时间。

Apr, 2023