CLIP 模型暗中是一种图像到提示的转换器

May, 2023

CLIP 模型暗中是一种图像到提示的转换器

The CLIP Model is Secretly an Image-to-Prompt Converter

Yuxuan Ding, Chunna Tian, Haoxuan Ding, Lingqiao Liu

TL;DR本文提出的方法，可以将图片转化为文本提示，从而解决了基于文本提示生成图片时难以整合隐含信息的问题。此方法可以简单灵活地处理各种任务，如图像变化和图像编辑。

Abstract

The Stable Diffusion model is a prominent text-to-image generation model that relies on a text prompt as its input, which is encoded using the Contrastive Language-Image Pre-Training (clip). However, text prompts

text-to-image generation clip image-to-prompt conversion linear projection matrix image editing

发现论文，激发创造

DiffusionCLIP: 文本引导下的扩散模型用于稳健的图像处理

该研究提出了一种名为 DiffusionCLIP 的新方法，该方法使用扩散模型进行文本驱动的图像操作，比现有基线表现更为优异，并允许简便的多属性操作。

Oct, 2021

DiffCLIP: 利用稳定扩散进行语言增强的 3D 分类

本文提出了一种新的预训练框架 DiffCLIP，其结合稳定扩散和 ControlNet，以减小视觉分支中的域间差异，并引入了一种样式提示生成模块，用于少样本任务，在 ModelNet10、ModelNet40 和 ScanObjectNN 数据集上进行广泛实验，表明 DiffCLIP 具有强大的 3D 理解能力。使用稳定扩散和样式提示生成，DiffCLIP 在 ScanObjectNN 的 OBJ_BG 数据集上实现了 43.2％的零样本分类精度，这是最先进的技术水平，并且在 ModelNet10 上实现了 80.6％的零样本分类精度，这与最先进的技术水平相当。

May, 2023

反向稳定扩散：生成此图像所使用的提示是什么？

预测生成式扩散模型所生成图像的文本提示，采用联合回归和多标签词汇分类目标的新型学习框架，结合白盒和黑盒模型解决生成文本提示的问题，并通过课程学习和领域自适应核学习方法进一步改进。实验结果表明，该学习框架在预测文本提示任务上取得了出色的结果，尤其在白盒模型上应用时效果最好，并发现在生成文本到图像时将该模型用于回收训练能够使生成的图像与输入提示更好地对齐。

Aug, 2023

使用 CLIP 潜变量的分层文本条件图像生成

提出一个两阶段模型，先用 prior 生成 CLIP 图像嵌入，再由 decoder 在图像嵌入的条件下生成图像。实验表明该模型可以提高图像的多样性，并在完美保留语义和风格前提下变化非必要的细节。利用扩散模型作为 decoder, 同时使用自回归和扩散模型作为 prior，发现后者更加高效且产生的样本更优。

Apr, 2022

基于 Top-k 邻居的图像到文本提示的 CLIP 模型

以生成模型为基础，提出了一种用于图像生成提示的低成本方法，在无需大量标注数据的情况下生成文本提示，并将方法划分为在线和离线两个阶段。所提出的系统由离线任务和在线任务两个主要部分组成，具有最高的度量值 0.612，比 Clip、Clip + KNN（前 10）分别高出 0.013、0.055、0.011。

Jan, 2024

CLIP 模型是一个高效的在线终身学习者

在线终身学习 (OLL) 研究了从连续和非恒定数据流中学习的挑战。通过对视觉 - 语言模型 (如 Contrastive Language-Image Pretraining，CLIP) 进行参数高效调整 (PET) 的在线终身学习方法显示了对图像和文本之间的对称性的重要性，并且引入了 Symmetric Image-Text (SIT) 调整策略。通过梯度分析的实验证明了 SIT 的有效性，此外还评估了终身学习对 CLIP 的泛化能力的影响，并发现调整图像编码器对终身学习有益，而调整文本编码器有助于零样本学习。

May, 2024

DenseCLIP: 基于语言引导的密集预测和上下文感知提示

本文提出了一种框架，通过使用 CLIP 的预训练知识的隐式和显式方法来进行密集预测，是一种模型不可知的方法，可应用于任意密集预测系统和各种预训练视觉 Backbones，包括 CLIP 模型和 ImageNet 预训练模型，实证实验表明，我们的方法在语义分割，目标检测和实例分割任务上具有优越的性能。

Dec, 2021

CLIP 也可以理解文本：通过提示进行短语理解

本篇研究发现，使用自然语言的方式来训练 Contrastive Language-Image Pretraining (CLIP) 的文本编码器，能够更好地实现短语的理解，甚至能够在正确的提示下，显著优于流行的语言模型，有效地提升实体聚类和扩展任务的效果。

Oct, 2022

Prompt Switch: 高效的 CLIP 适应文本 - 视频检索

该研究论文介绍了一种在文本 - 视频检索中学习视频语义表示的方法，通过将一个空间 - 时间上下文模块引入图像编码器，并通过辅助视频字幕目标进行训练，以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略，取得了三个基准数据集（MSR-VTT，MSVD 和 LSMDC）的最先进性能。

Aug, 2023

民主化对比语言 - 图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出 CLIP-benchmark，对 CLIP 及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。

Mar, 2022