预测、预防和评估：由预训练的视觉语言模型赋能的分解文本驱动图像操作

CVPRNov, 2021

预测、预防和评估：由预训练的视觉语言模型赋能的分解文本驱动图像操作

Predict, Prevent, and Evaluate: Disentangled Text-Driven Image Manipulation Empowered by Pre-Trained Vision-Language Model

PDF

Zipeng Xu, Tianwei Lin, Hao Tang, Fu Li, Dongliang He...

TL;DR该研究提出了一种新的基于文本的图像操作框架，该框架几乎不需要手动注释，并使用大规模预训练的视觉语言模型 CLIP，通过预测属性、引入脱缰损失和提出新的评估指标来实现图像操作的解开，该框架在复杂的人脸编辑任务中获得比现有 StyleCLIP 基准更好的定量和定性结果。

Abstract

To achieve disentangled image manipulation, previous works depend heavily on manual annotation. Meanwhile, the available manipulations are limited to a pre-defined set the models were trained for. We propose a novel framework, i.e., Predict, Prevent, and Evaluate (PPE), for disentangle

disentangled image manipulation text-driven vision-language model entanglement loss evaluation metric

发现论文，激发创造

CLIP-PAE: 投影增强嵌入以提取相关特征，以实现可分解、可解释和可控的文本引导图像操纵

使用 CLIP Projection-Augmentation Embedding（PAE）作为优化目标，以改善文本引导的图像操作的性能。

Oct, 2022

TextCLIP：无对抗训练的文本指导人脸图像生成与操作

提出了 TextCLIP，这是一个统一的框架，用于无对抗训练的文本引导的图像生成和操作，通过对 Contrastive Language-Image Pre-training (CLIP) 的文本图像表示能力和 StyleGAN 的生成能力的结合，能够生成高达 1024×1024 分辨率的图像，并在 Multi-modal CelebA-HQ 数据集上取得了优于现有最先进方法的结果。

Sep, 2023

StyleCLIP: 基于文本的 StyleGAN 图像操作

本文探讨了如何利用 Contrastive Language-Image Pre-training (CLIP) 模型，开发基于文本的 StyleGAN 图像操作界面。新方法不需要人工干预，通过文本提示即可对输入的潜在向量进行修改，并引入了潜在映射器，提高了文本驱动的操作效率。实验表明该方法非常有效。

Mar, 2021

CLAP：对预先训练的视觉语言模型鲁棒性的增强提示对比学习

通过文本增强方法，不需要在对抗性示例上重新训练图像编码器，从而增强视觉 - 语言模型的稳健性，并且实验证明了在各种数据集上对预训练的 CLIP 模型的稳健性有显著改善。

Nov, 2023

基于 CLIP 的图像到文本转换提升多模态理解能力

将输入图像转化为相应的文字解释是计算机视觉和自然语言处理领域中一个关键而复杂的过程，本文提出了一种创新的集成方法，利用对比式语言图像预训练模型的能力。

Jan, 2024

通过 CLIP 实现反事实图像处理

通过 Contrastive-Language-Image- Pretraining (CLIP) 进行对抗操作，利用预定义的 CLIP 空间方向指导编辑，并将文本嵌入显式地转换为潜在空间，以实现准确的编码和编辑。

Jul, 2022

选择所需：场景文本识别、去除和编辑的解缠表示学习

基于现有样式和内容信息紧密耦合的特征，本研究提出了一种分解表示学习框架 (DARLING)，旨在通过分离这两种特征来提高适应不同下游任务的能力。实验结果表明，我们的方法在场景文本识别、去除和编辑方面取得了最先进的性能。

May, 2024

通过闭环解缠实现文本属性控制

利用半监督对比学习方法，我们提出一种新的方法来实现属性的稳健控制，并增强内容的保留。通过重新解缠重构的句子并将其与原始潜变空间进行比较，我们实现了一个闭环解缠过程，进一步帮助内容保留。与以往方法不同，对比学习方法能够代替最小化互信息和对抗训练在解缠过程中的作用，从而减少计算成本。我们在三个文本数据集上进行了实验证明了我们模型的有效性。

Dec, 2023

物品有价值：具有分离控制的多用途图像编辑

基于预训练的扩散模型，我们提出了一种名为 D-Edit 的框架，通过在特定物品上操作相应提示来实现多样化的图像编辑，涵盖基于图像、文本、掩膜和物品删除的四种编辑操作类型，展示了编辑结果的质量和多样性。

Mar, 2024

StyleMC: 基于多通道快速文字引导的图像生成和操作

本文提出了一种快速高效的以文本驱动的图像生成和操控方法 ——StyleMC，利用 CLIP 的 loss 和 identity loss 进行图像操控，不需要工程设计，仅需少量文本 prompt 训练即可找到稳定的全局 direction，比之前的方法更加高效

Dec, 2021