CLIPVG: 可微分向量图形辅助的文本引导图像操作

AAAIDec, 2022

CLIPVG: 可微分向量图形辅助的文本引导图像操作

CLIPVG: Text-Guided Image Manipulation Using Differentiable Vector Graphics

Yiren Song, Xning Shao, Kang Chen, Weidong Zhang, Minzhe Li...

TL;DR该论文介绍一种名为 CLIPVG 的文本引导图像处理框架，不需要额外的生成模型，使用可区分向量图形来实现像素级细节变化，并且在语义正确性和综合质量方面均取得了最先进的性能，并支持各种应用。

Abstract

Considerable progress has recently been made in leveraging clip (Contrastive Language-Image Pre-Training) models for text-guided image manipulation. However, all existing works rely on additional →

clip image manipulation vector graphics generative models semantic correctness

发现论文，激发创造

TextCLIP：无对抗训练的文本指导人脸图像生成与操作

提出了 TextCLIP，这是一个统一的框架，用于无对抗训练的文本引导的图像生成和操作，通过对 Contrastive Language-Image Pre-training (CLIP) 的文本图像表示能力和 StyleGAN 的生成能力的结合，能够生成高达 1024×1024 分辨率的图像，并在 Multi-modal CelebA-HQ 数据集上取得了优于现有最先进方法的结果。

Sep, 2023

VT-CLIP: 使用视觉引导文本增强视觉语言模型

提出一种名为 VT-CLIP 的方法来增强 CLIP 模型，它通过可视化引导文本，使文本的特征更适应图片，在多分类任务中表现出很高的效果。

Dec, 2021

DiffusionCLIP: 文本引导下的扩散模型用于稳健的图像处理

该研究提出了一种名为 DiffusionCLIP 的新方法，该方法使用扩散模型进行文本驱动的图像操作，比现有基线表现更为优异，并允许简便的多属性操作。

Oct, 2021

CLIP-VG: 利用伪语言标签自适应的 CLIP 自适应自学课程对视觉 grounding

本文提出了一种基于 CLIP-VG 的自我学习课程适应方法，通过利用伪语言标签来解决 VG 问题，以达到隐式知识利用和去噪。研究结果表明，该方法在单源和多源情况下都远优于现有的最先进的无监督 VG 方法 Pseudo-Q，甚至优于现有的弱监督方法。

May, 2023

StyleCLIP: 基于文本的 StyleGAN 图像操作

本文探讨了如何利用 Contrastive Language-Image Pre-training (CLIP) 模型，开发基于文本的 StyleGAN 图像操作界面。新方法不需要人工干预，通过文本提示即可对输入的潜在向量进行修改，并引入了潜在映射器，提高了文本驱动的操作效率。实验表明该方法非常有效。

Mar, 2021

CLIP-GEN: 使用 CLIP 进行无需语言条件的文本 - 图像生成训练

本文提出了一种自监督学习策略 CLIP-GEN 用于通用的文本生成图像，只需要通用领域的未标记图像。我们使用来自 CLIP 的语言 - 图像先验知识，并使用自编码器和自回归变换器将图像转换为文本标记，并基于这里从文本编码器中提取的文本嵌入生成连贯的图像标记。定量和定性评估表明本方法在图像质量方面明显优于基于优化的文本到图像方法，而且不会影响文本与图像的匹配。

Mar, 2022

一种鲁棒的文本驱动图像编辑方法：自适应探索 StyleGAN 和 CLIP 潜空间中的方向

我们提出了一种使用 SVM 在 StyleGAN 和 CLIP 空间自适应构建编辑方向的方法，将大规模图像语料库中与文本指令相似的图像通过 CLIP 相似性检索，用 SVM 训练正负图像分类器将编辑方向表示为 CLIP 空间中的法向量，并验证其性能与 StyleCLIP 基准一致，而且不会增加计算时间。

Apr, 2023

使用自然语言引导的开放域图像生成和编辑

使用多模态编码器指导图像生成的新方法，避免了使用昂贵和经过特殊训练的模型，能够从复杂的语义文本提示中生成高质量的图像，并且能够比 DALL-E [38]，GLIDE [33] 和 Open-Edit [24] 等先前的不灵活方法产生更高的视觉质量。

Apr, 2022

CLIP-VQDiffusion: 基于 CLIP 和向量量化扩散模型的无语言训练文本生成图像

本文提出了利用预训练的 CLIP 模型来实现多模态文本 - 图像表示和强大的图像生成能力的 CLIP-VQDiffusion 模型，在 FFHQ 数据集上，该模型的 Clipscore 得分超过了之前最先进的方法 4.4%，并且即使在分布内外的情况下，生成的图像也非常逼真。

Mar, 2024

增强 CLIP 的改进视觉语言推理

通过使用不同的图像参数化方法，利用生成模型和巧妙设计的蒸馏目标，我们提出了一种轻量级而高效的方法 SDS-CLIP，来改善 CLIP 模型的组合视觉 - 语言推理能力并在多个数据集上显示了显著的性能提升。

Jul, 2023