通过视觉表示精炼视觉 - 语言模型中的偏差感知

May, 2024

通过视觉表示精炼视觉 - 语言模型中的偏差感知

Refining Skewed Perceptions in Vision-Language Models through Visual Representations

Haocheng Dai, Sarang Joshi

TL;DR通过使用简单的线性探测器，本研究探讨了如何从 CLIP 的嵌入中有效地提取特定任务的核心特征，结果显示 CLIP 的文本表示往往受到了有偏向的预训练数据中具有误导性的相关性的影响，实证结果表明相比文本嵌入，依赖于 CLIP 的视觉表示更为实用，可克服内置偏见。

Abstract

Large vision-language models (VLMs), such as CLIP, have become foundational, demonstrating remarkable success across a variety of downstream tasks. Despite their advantages, these models, akin to other foundational systems, inherit →

vision-language models biases spurious correlations linear probe visual representations

发现论文，激发创造

如果 CLIP 能说话：通过其首选概念描述理解视觉 - 语言模型的表示

我们利用强化学习的方法提出了一种新颖的方法 ——Extract and Explore (EX2)，用于表征 Vision-Language Model (VLM) 的重要文本特征，并发现 VLM 在表示视觉概念时显著依赖于非视觉属性。

Mar, 2024

为何视觉与语言结合的模型在图像分类上不佳？

基于本文的研究发现，将分类聚焦的数据集整合到可视语言模型的训练中可以提高其分类性能，并将性能提升转移到其一般能力上，对于新收集的 ImageWikiQA 数据集，准确率提高了 11.8%。

May, 2024

利用大型语言模型的描述进行视觉分类

本文介绍了一种基于描述符的视觉语言模型分类方法，通过查询大型语言模型获取描述符，实现从中获得更多的信息并提供可解释性；实验证明了该方法在图像分类精度，适应新概念和缓解偏差等方面有着广泛的优势。

Oct, 2022

CLIP 能为视觉语言任务带来多大的效益？

研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势，通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务，CLIP 显著优于现有的视觉编码器，并在多种视觉与语言任务中取得竞争或更好的结果，同时取得了 Visual Question Answering，Visual Entailment 和 V&L Navigation 等任务的新高峰。

Jul, 2021

视觉 - 语言模型的跨模态概念学习和推理

使用大规模预训练的视觉语言模型（如 CLIP）及跨模态概念学习和推理（CCLI）方法，能够通过文本和图像之间的相关性自动学习图像的视觉概念，并构建区分性的图像表示，从而提高少样本学习和领域泛化等图像分类任务的性能。

Jul, 2023

ProbVLM：基于概率的适配器用于冻结的视觉语言模型

该研究提出了 ProbVLM，一种新的方法来评估大规模视觉语言模型的多模态嵌入不确定性，以及如何利用该不确定性来提高主动学习和模型选择的效果。

Jul, 2023

视觉 - 语言模型中被忽视的尾部

视觉语言模型（VLM）在零射击识别方面表现出色，但在视觉概念上的性能相差巨大。我们的工作首次尝试通过分析预训练文本来测量概念频率，并提出了一种减轻 VLM 在零射击识别中不平衡性能的方法 REtrieval-Augmented Learning REAL。

Jan, 2024

他们都是医生：合成各种对抗偏见的反事实案例

通过生成合成的反事实图像集合，采用脱节模型训练方法来改善 Vision Language Models（VLMs）的公平性和性能。

Jun, 2024

CLoVe: 对比视觉语言模型中的组合式语言编码

近年来，视觉与语言任务的性能显著提升。本文介绍了一个框架，极大地提高了现有模型对构成性语言的编码能力，在构成性基准测试中绝对改进了 10%，同时在标准的对象识别和检索基准测试中保持或提高了性能。

Feb, 2024

多模态表示的校准：无需标注的群体稳健性追求

探索在不使用任何组标注的情况下减轻 CLIP 对虚假特征依赖的方法，通过基于对比学习的轻量级表示校准方法对预训练 CLIP 进行微调，从而显著减少依赖并大大提升模型的泛化能力。

Mar, 2024