通过视觉表示精炼视觉 - 语言模型中的偏差感知
我们利用强化学习的方法提出了一种新颖的方法 ——Extract and Explore (EX2),用于表征 Vision-Language Model (VLM) 的重要文本特征,并发现 VLM 在表示视觉概念时显著依赖于非视觉属性。
Mar, 2024
基于本文的研究发现,将分类聚焦的数据集整合到可视语言模型的训练中可以提高其分类性能,并将性能提升转移到其一般能力上,对于新收集的 ImageWikiQA 数据集,准确率提高了 11.8%。
May, 2024
本文介绍了一种基于描述符的视觉语言模型分类方法,通过查询大型语言模型获取描述符,实现从中获得更多的信息并提供可解释性;实验证明了该方法在图像分类精度,适应新概念和缓解偏差等方面有着广泛的优势。
Oct, 2022
研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势,通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务,CLIP 显著优于现有的视觉编码器,并在多种视觉与语言任务中取得竞争或更好的结果,同时取得了 Visual Question Answering,Visual Entailment 和 V&L Navigation 等任务的新高峰。
Jul, 2021
使用大规模预训练的视觉语言模型(如 CLIP)及跨模态概念学习和推理(CCLI)方法,能够通过文本和图像之间的相关性自动学习图像的视觉概念,并构建区分性的图像表示,从而提高少样本学习和领域泛化等图像分类任务的性能。
Jul, 2023
该研究提出了 ProbVLM,一种新的方法来评估大规模视觉语言模型的多模态嵌入不确定性,以及如何利用该不确定性来提高主动学习和模型选择的效果。
Jul, 2023
视觉语言模型(VLM)在零射击识别方面表现出色,但在视觉概念上的性能相差巨大。我们的工作首次尝试通过分析预训练文本来测量概念频率,并提出了一种减轻 VLM 在零射击识别中不平衡性能的方法 REtrieval-Augmented Learning REAL。
Jan, 2024
近年来,视觉与语言任务的性能显著提升。本文介绍了一个框架,极大地提高了现有模型对构成性语言的编码能力,在构成性基准测试中绝对改进了 10%,同时在标准的对象识别和检索基准测试中保持或提高了性能。
Feb, 2024
探索在不使用任何组标注的情况下减轻 CLIP 对虚假特征依赖的方法,通过基于对比学习的轻量级表示校准方法对预训练 CLIP 进行微调,从而显著减少依赖并大大提升模型的泛化能力。
Mar, 2024