如果 CLIP 能说话：通过其首选概念描述理解视觉 - 语言模型的表示

Mar, 2024

如果 CLIP 能说话：通过其首选概念描述理解视觉 - 语言模型的表示

If CLIP Could Talk: Understanding Vision-Language Model Representations Through Their Preferred Concept Descriptions

Reza Esfandiarpoor, Cristina Menghini, Stephen H. Bach

TL;DR我们利用强化学习的方法提出了一种新颖的方法 ——Extract and Explore (EX2)，用于表征 Vision-Language Model (VLM) 的重要文本特征，并发现 VLM 在表示视觉概念时显著依赖于非视觉属性。

Abstract

Recent works often assume that vision-language model (VLM) representations are based on visual attributes like shape. However, it is unclear to what extent VLMs prioritize this information to represent concepts. We propose →

vision-language model vlm representations extract and explore textual features non-visual attributes

发现论文，激发创造

通过视觉表示精炼视觉 - 语言模型中的偏差感知

通过使用简单的线性探测器，本研究探讨了如何从 CLIP 的嵌入中有效地提取特定任务的核心特征，结果显示 CLIP 的文本表示往往受到了有偏向的预训练数据中具有误导性的相关性的影响，实证结果表明相比文本嵌入，依赖于 CLIP 的视觉表示更为实用，可克服内置偏见。

May, 2024

利用大型语言模型的描述进行视觉分类

本文介绍了一种基于描述符的视觉语言模型分类方法，通过查询大型语言模型获取描述符，实现从中获得更多的信息并提供可解释性；实验证明了该方法在图像分类精度，适应新概念和缓解偏差等方面有着广泛的优势。

Oct, 2022

基于概念的神经网络分析：视觉 - 语言模型

通过多模态的视觉 - 语言基础模型作为一种视角，本文提出了一种逻辑规范语言 Con_spec，用于在这些模型的高级人类可理解概念描述的基础上编写规范并进行形式验证，通过采用 VLM 实现自然语言性质的编码和高效检查，以 ResNet 为基础的分类器在 RIVAL-10 数据集上进行的实验验证了我们的技术。

Mar, 2024

视觉语言建模简介

扩展到视觉领域的大型语言模型（LLMs）的应用将显著影响我们与技术的关系，但需要解决一些可靠性挑战。本文介绍了视觉语言模型（VLM）以及其工作原理、训练方法和评估方法，并讨论了将其扩展到视频领域的问题。

May, 2024

LLMs 作为视觉解释器：通过演变的视觉描述推进图像分类

将视觉语言模型（VLMs）与大型语言模型（LLMs）相结合的迭代优化与视觉反馈方法，显著提高了图像分类性能，并产生了可解释和稳健的特征描述符。

Nov, 2023

视觉 - 语言模型中被忽视的尾部

视觉语言模型（VLM）在零射击识别方面表现出色，但在视觉概念上的性能相差巨大。我们的工作首次尝试通过分析预训练文本来测量概念频率，并提出了一种减轻 VLM 在零射击识别中不平衡性能的方法 REtrieval-Augmented Learning REAL。

Jan, 2024

预训练的视觉语言模型学习可发现的视觉概念

视觉语言模型能够预测图像中的视觉概念，例如 'brown'（颜色）和'spiky'（纹理），这种免费学习的能力可以广泛应用于神经符号推理或人可解释的对象分类。通过定义和评估视觉概念的新策略，我们证实预训练的视觉语言模型通过文字提示可以提取出准确全面的视觉概念，这一概念发现与学习框架能够为多样化的视觉识别数据集提供准确的描述。

Apr, 2024

MyVLM: 为用户特定查询个性化 VLM

对于个性化视觉 - 语言模型，我们探索了增加外部概念头和中间特征空间中的概念嵌入来实现对用户提供的概念的识别和自然整合，并将其应用于个性化图像字幕生成和个性化视觉问答，结果表明模型可以推广到学习概念的未见图像，并保持在无关输入上的模型行为。

Mar, 2024

HGCLIP：基于图表示的层次理解视觉 - 语言模型的探索

我们提出了一种将 CLIP 与图表示学习相结合以更深入地利用分层类结构的新框架（HGCLIP），通过将类层次结构构建成一个图，其中其节点代表每个类别的文本或图像特征，通过图编码器，文本特征结合了分层结构信息，而图像特征通过注意机制强调了从原型派生的类别感知特征，我们的方法在通用和细粒度视觉识别基准上均取得了显著的改进。

Nov, 2023

视觉 - 语言模型的跨模态概念学习和推理

使用大规模预训练的视觉语言模型（如 CLIP）及跨模态概念学习和推理（CCLI）方法，能够通过文本和图像之间的相关性自动学习图像的视觉概念，并构建区分性的图像表示，从而提高少样本学习和领域泛化等图像分类任务的性能。

Jul, 2023