使用 CLIP 的可学习提示改进了视觉关系预测

Jul, 2023

使用 CLIP 的可学习提示改进了视觉关系预测

CREPE: Learnable Prompting With CLIP Improves Visual Relationship Prediction

Rakshith Subramanyam, T. S. Jayram, Rushil Anirudh, Jayaraman J. Thiagarajan

TL;DR本文介绍了基于 CLIP 的模型在预测物体关系方面的潜力及对 UVTransE 框架进行了优化，提出了 CLIP Representation Enhanced Predicate Estimation (CREPE) 方法，通过对三个边界框的文本表示进行对比训练，取得了 state-of-the-art 的预测成果。

Abstract

In this paper, we explore the potential of vision-language models (VLMs), specifically clip, in predicting visual object relationships, wh

vision-language models clip object relationships uvtranse predicate estimation

发现论文，激发创造

用 GPT-4 增强 CLIP：利用视觉描述作为提示

我们展示了如何使用 GPT-4 生成视觉描述性文本，并说明如何将其用于适应 CLIP 进行下游任务。与 CLIP 的默认提示相比，在专门的细粒度数据集上，我们在 0-shot 传输准确性方面取得了显著的改进。我们还设计了一个简单的 few-shot 适配器，学习选择最佳的句子来构建具有优越性能的可推广分类器。

Jul, 2023

视觉语言模型的无监督提示学习

本文提出了一种无监督提示学习（UPL）方法，以避免提示工程并同时提高类似 CLIP 的视觉语言模型的传递性能。该方法实验结果显示，在 ImageNet 以及其他 10 个数据集上，与原始 CLIP 相比，UPL 具有更优秀的传输表现，并且增强版的 UPL 在大多数数据集上甚至能够与 8-shot CoOp 和 8-shot TIP-Adapter 竞争。

Apr, 2022

概念引导下的提示学习进行视觉 - 语言模型泛化

通过概念引导提示学习的方式，CPL 方法显著提高了通用化性能。

Jan, 2024

Prompt Switch: 高效的 CLIP 适应文本 - 视频检索

该研究论文介绍了一种在文本 - 视频检索中学习视频语义表示的方法，通过将一个空间 - 时间上下文模块引入图像编码器，并通过辅助视频字幕目标进行训练，以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略，取得了三个基准数据集（MSR-VTT，MSVD 和 LSMDC）的最先进性能。

Aug, 2023

VT-CLIP: 使用视觉引导文本增强视觉语言模型

提出一种名为 VT-CLIP 的方法来增强 CLIP 模型，它通过可视化引导文本，使文本的特征更适应图片，在多分类任务中表现出很高的效果。

Dec, 2021

CLIP 对红色圆圈有何了解？用于 VLM 的视觉提示工程

本文探讨了在图像空间中使用视觉提示工程来解决计算机视觉任务的想法，并发现了 CLIP 的一种新能力，通过简单地在物体周围画一个红圈，即可引导模型的注意力，同时保留全局信息。通过这种简单的方法，在零样本引用表达理解中实现了最先进的效果，并在关键点定位任务中取得了强大的性能。最后，我们关注了大型语言 - 视觉模型可能存在的一些潜在伦理问题。

Apr, 2023

CLIP 也可以理解文本：通过提示进行短语理解

本篇研究发现，使用自然语言的方式来训练 Contrastive Language-Image Pretraining (CLIP) 的文本编码器，能够更好地实现短语的理解，甚至能够在正确的提示下，显著优于流行的语言模型，有效地提升实体聚类和扩展任务的效果。

Oct, 2022

基于典型对比学习的 CLIP 微调方法用于物体重新识别

這項研究旨在將大規模預先訓練的視覺語言模型，如對比語言 - 圖像預訓練（CLIP），適應各種監督設置下物體再識別（Re-ID）的表現提升。在本研究中，我們首先分析了 CLIP-ReID 中 prompt learning 的作用並確認了其限制。基於我們的調查，我們提出了一種簡單而有效的方法，通過使用原型對比學習（PCL）損失直接微調 CLIP 的圖像編碼器，從而消除了 prompt learning 的需要。在人物和車輛 Re-ID 數據集上的實驗結果證明了我們的方法與 CLIP-ReID 的競爭力。此外，我們將基於 PCL 的 CLIP 微調方法擴展到無監督場景，達到了最新的表現。

Oct, 2023

ECOR：面向目标识别的可解释 CLIP

在本研究中，我们通过给对象识别任务中的大视觉语言模型（VLMs）提供可解释性的数理定义（基于类别和原因的联合概率分布），以一种可解释的方式对 CLIP 进行微调，从而在解释性分类方面展现了最先进的性能，尤其在零样本设置下表现出了它的适应性，使解释性的对象识别得到了改善，增强了不同应用中的信任。

Apr, 2024

CLIP 融合模型库专家：视觉增强的伪监督

通过在 CLIP 训练中结合任务特定的视觉模型，利用伪标签来改进其视觉表示，该简单的设置在不妨碍现有性能的前提下，显著提高了不同视觉任务的效果。

Oct, 2023