通过 CLIP 实现反事实图像处理
本文探讨了如何利用 Contrastive Language-Image Pre-training (CLIP) 模型,开发基于文本的 StyleGAN 图像操作界面。新方法不需要人工干预,通过文本提示即可对输入的潜在向量进行修改,并引入了潜在映射器,提高了文本驱动的操作效率。实验表明该方法非常有效。
Mar, 2021
本文提出了一种新的基于文本的图像编辑方法 CLIPInverter,通过在预训练的 GAN 反演网络中集成轻量级文本适配器层,以目标描述的 CLIP 嵌入为条件进行初始反演步骤的条件化,通过使用 CLIP 引导的细化步骤来对结果残留潜在编码进行更正,从而实现了高效稳定地进行多属性更改,因此在各个领域,包括人类脸部,猫和鸟类方面,我们的方法在操作精度和真实度方面均表现优异。
Jul, 2023
提出了 TextCLIP,这是一个统一的框架,用于无对抗训练的文本引导的图像生成和操作,通过对 Contrastive Language-Image Pre-training (CLIP) 的文本图像表示能力和 StyleGAN 的生成能力的结合,能够生成高达 1024×1024 分辨率的图像,并在 Multi-modal CelebA-HQ 数据集上取得了优于现有最先进方法的结果。
Sep, 2023
提出一个两阶段模型,先用 prior 生成 CLIP 图像嵌入,再由 decoder 在图像嵌入的条件下生成图像。实验表明该模型可以提高图像的多样性,并在完美保留语义和风格前提下变化非必要的细节。利用扩散模型作为 decoder, 同时使用自回归和扩散模型作为 prior,发现后者更加高效且产生的样本更优。
Apr, 2022
反事实图像编辑是生成式人工智能中的重要任务,本文提出了一种利用增强的结构因果模型来建模潜在生成因子与图像之间的因果关系,并通过一种新的家族反事实一致估计器对非可识别的反事实分布进行近似,以解决此挑战性问题。
Feb, 2024
本文提出一种方法将 StyleGAN 和 CLIP 的预训练潜空间有效链接,从而能够自动从 StyleGAN 中提取语义标注的编辑方向,找到并命名有意义的编辑操作,而不需要任何额外的人类指导
Dec, 2021
本文提出了一种快速高效的以文本驱动的图像生成和操控方法 ——StyleMC,利用 CLIP 的 loss 和 identity loss 进行图像操控,不需要工程设计,仅需少量文本 prompt 训练即可找到稳定的全局 direction,比之前的方法更加高效
Dec, 2021
通过 CounterCurate 框架,综合改善对比式和生成式多模态模型的视觉 - 语言组合推理能力,通过解决忽视物理基础推理(计数和位置理解)和使用高能力文本和图像生成模型进行语义反事实微调的潜力等两个问题来提高推理性能。
Feb, 2024
我们提出了一种使用 SVM 在 StyleGAN 和 CLIP 空间自适应构建编辑方向的方法,将大规模图像语料库中与文本指令相似的图像通过 CLIP 相似性检索,用 SVM 训练正负图像分类器将编辑方向表示为 CLIP 空间中的法向量,并验证其性能与 StyleCLIP 基准一致,而且不会增加计算时间。
Apr, 2023