用 GPT-4 增强 CLIP：利用视觉描述作为提示

Jul, 2023

用 GPT-4 增强 CLIP：利用视觉描述作为提示

Enhancing CLIP with GPT-4: Harnessing Visual Descriptions as Prompts

Mayug Maniparambil, Chris Vorster, Derek Molloy, Noel Murphy, Kevin McGuinness...

TL;DR我们展示了如何使用 GPT-4 生成视觉描述性文本，并说明如何将其用于适应 CLIP 进行下游任务。与 CLIP 的默认提示相比，在专门的细粒度数据集上，我们在 0-shot 传输准确性方面取得了显著的改进。我们还设计了一个简单的 few-shot 适配器，学习选择最佳的句子来构建具有优越性能的可推广分类器。

Abstract

contrastive pretrained large vision-language models (VLMs) like CLIP have revolutionized visual representation learning by providing good performance on downstream datasets. VLMs are 0-shot adapted to a downstream dataset by designing prompts that are relevant to the dataset. Such

contrastive pretrained large vision-language models prompt engineering generative pretrained models advanced internet search tools 0-shot transfer accuracy

发现论文，激发创造

VT-CLIP: 使用视觉引导文本增强视觉语言模型

提出一种名为 VT-CLIP 的方法来增强 CLIP 模型，它通过可视化引导文本，使文本的特征更适应图片，在多分类任务中表现出很高的效果。

Dec, 2021

概念引导下的提示学习进行视觉 - 语言模型泛化

通过概念引导提示学习的方式，CPL 方法显著提高了通用化性能。

Jan, 2024

仅使用文本监督在视觉 - 语言模型中学习提示

本研究提出了一种使用仅文本数据学习通用提示的方法，通过将 LLL（large language models）中的上下文数据映射到学习到的提示中，实现了零样本转移，并在 4 个基准测试上进行了广泛评估。

Jan, 2024

CLIP 对红色圆圈有何了解？用于 VLM 的视觉提示工程

本文探讨了在图像空间中使用视觉提示工程来解决计算机视觉任务的想法，并发现了 CLIP 的一种新能力，通过简单地在物体周围画一个红圈，即可引导模型的注意力，同时保留全局信息。通过这种简单的方法，在零样本引用表达理解中实现了最先进的效果，并在关键点定位任务中取得了强大的性能。最后，我们关注了大型语言 - 视觉模型可能存在的一些潜在伦理问题。

Apr, 2023

CLIP 能为视觉语言任务带来多大的效益？

研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势，通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务，CLIP 显著优于现有的视觉编码器，并在多种视觉与语言任务中取得竞争或更好的结果，同时取得了 Visual Question Answering，Visual Entailment 和 V&L Navigation 等任务的新高峰。

Jul, 2021

CLIP 也可以理解文本：通过提示进行短语理解

本篇研究发现，使用自然语言的方式来训练 Contrastive Language-Image Pretraining (CLIP) 的文本编码器，能够更好地实现短语的理解，甚至能够在正确的提示下，显著优于流行的语言模型，有效地提升实体聚类和扩展任务的效果。

Oct, 2022

CLIP-Adapter: 特征适配器提升视觉语言模型

本文提出一种新的视觉语言模型 fine-tuning 方式 ——CLIP-Adapter，通过在原训练模型上加入新特征层并进行残差式混合来实现，在各种视觉分类任务中表现优异，优于 context optimization

Oct, 2021

视觉语言模型的无监督提示学习

本文提出了一种无监督提示学习（UPL）方法，以避免提示工程并同时提高类似 CLIP 的视觉语言模型的传递性能。该方法实验结果显示，在 ImageNet 以及其他 10 个数据集上，与原始 CLIP 相比，UPL 具有更优秀的传输表现，并且增强版的 UPL 在大多数数据集上甚至能够与 8-shot CoOp 和 8-shot TIP-Adapter 竞争。

Apr, 2022

提高视觉语言模型的适应性和泛化能力的有效传递学习

利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要；我们提出了一种自适应集成方法，根据迁移难度有效地结合了 VLMs 的通用知识和任务特定知识，该方法在广泛的基准测试中始终优于所有基准线，尤其是在未知任务上表现出了其有效性。

Nov, 2023

检索增强型零样本视频字幕生成

该论文提出了一种利用现有的大规模视觉和语言模型进行测试时间适应性直接生成字幕的方法，通过使用多个关键模型来桥接视频和文本，并使用可学习的令牌来传递信息。在实验中，该方法在多个数据集上取得了与现有最先进方法相比的 4％至 20％的 CIDEr 主要评价指标的改进。

May, 2024