探究大型视觉语言模型的概念理解

Apr, 2023

探究大型视觉语言模型的概念理解

Probing Conceptual Understanding of Large Visual-Language Models

Madeline Chantry Schiappa, Michael Cogswell, Ajay Divakaran, Yogesh Singh Rawat

TL;DR本文介绍了一种新的框架，用于探究和提升视觉语言模型的关系、组合和上下文理解。我们提出了一个基准数据集来检测内容理解的三个方面。我们实验了 5 种流行的模型，并发现它们大多数难以展示出概念理解。然而，我们发现交叉注意力可以帮助学习概念理解，并提出了一种新的微调技术，以奖励我们提出的三个概念理解措施。我们希望这些基准测试可以帮助社区评估和改进大型视觉语言模型的概念理解能力。

Abstract

We present a novel framework for probing and improving relational, compositional and contextual understanding of large visual-language models (V+L). While large V+L models have achieved success in various downstream tasks, it is not clear if they have a conceptual grasp of the content.

visual-language models conceptual understanding benchmarking finetuning cognitive science

发现论文，激发创造

使用视觉表示探究上下文语言模型的共同基础

本文通过设计一种探针模型，研究了上下文语言模型对应的具体名词在视觉表示方面的关联程度，并发现语言表示本身就具有检索正确对象类别的强信号以及检索图像特定实例的效果，而文本上下文在该过程中发挥了重要作用，但比起人类，具有图像为基础的语言模型在实例检索方面表现稍逊。我们希望这些结果能够启发未来的研究，进一步地理解和改善语言模型的视觉能力。

May, 2020

综合、诊断和优化：朝着细粒度的视觉 - 语言理解方向

视觉语言模型（VLM）在各种下游任务中展现出了卓越的性能，但是对于属性和物体间关系等细粒度的视觉语言概念的理解仍然是一个重要挑战。我们提出了一种渐进式流水线来合成在特定属性上变化而在其他方面保持一致的图像，并利用这个数据引擎设计了一个用于诊断物体尺寸、位置、存在和数量理解的基准测试 SPEC。令人惊讶的是，四个领先的 VLM 在 SPEC 上的表现接近随机猜测，揭示了重大局限性。鉴于此，我们提出了一种简单而有效的方法来优化 VLM 在细粒度理解上的性能，在不影响零样本性能的情况下，显著改善了 SPEC 的结果。在其他两个细粒度基准测试上的结果也表明了我们方法的可迁移性，并进一步验证了我们的方法。

Nov, 2023

语言模型能够理解物理概念吗？

该论文研究了自然语言模型是否能理解物理概念，并设计了一个基准测试 VEC 来探究视觉和具身概念。结果表明，视觉增强的语言模型，如 CLIP 和 BLIP，能够理解具身概念，而通过蒸馏方法将具身知识转移给 LMs 的性能也相当可观。

May, 2023

VIPHY：探究 “可见” 的物理常识知识

本研究使用自动管道方法研究了视觉 - 语言模型在获取 “可见” 物理知识方面的能力，并发现这些模型在物体颜色，大小和空间三个方面的表现与人类存在明显差距。而采用预训练的基线模型 (CapBERT) 可以取得更好的表现。

Sep, 2022

基于概念的神经网络分析：视觉 - 语言模型

通过多模态的视觉 - 语言基础模型作为一种视角，本文提出了一种逻辑规范语言 Con_spec，用于在这些模型的高级人类可理解概念描述的基础上编写规范并进行形式验证，通过采用 VLM 实现自然语言性质的编码和高效检查，以 ResNet 为基础的分类器在 RIVAL-10 数据集上进行的实验验证了我们的技术。

Mar, 2024

3VL：使用树结构教授视觉与语言模型组合概念

通过引入树增强视觉语言（3VL）模型架构和训练技术，以及我们提出的锚定推理方法和差分相关性（DiRe）可解释性工具，本研究扩展任意图像 - 文本对的文本内容为分层树状结构，并将该结构引入模型学习的视觉表示，提高了模型的解释能力和组合推理能力，同时展示了锚定和差分相关性工具的应用。

Dec, 2023

COPEN：探测预训练语言模型中的概念知识

本研究提出了 COPEN，作为探查预训练语言模型概念知识的评估基准，并通过三项任务对 PLMs 的概念知识进行综合评估，结果表明现有的 PLMs 系统性缺乏概念知识并受到各种虚假相关性的影响。

Nov, 2022

RelationVLM: 构建大型视觉 - 语言模型以理解视觉关系

RelationVLM 是一种大型视觉语言模型，通过多阶段关系感知训练方案和相应的数据配置策略，使其具备理解多个图像或视频内的多个层次和类型关系的能力，该工作促进了 LVLM 的发展，使其能够支持更广泛的人工通用智能应用。

Mar, 2024

在视觉语言概念瓶颈模型中改善概念对齐

通过专家定义的概念而不是语言模型生成的概念构建可靠的 Concept Bottleneck Models（CBM），提出了一种使用少量标注的概念示例改善模型概念对齐的对比半监督学习方法，实验证明该方法显著提高了概念准确度和分类准确度。

May, 2024

InterVLS：用视觉语言替代模型的交互式理解和改进

通过发现与文本对齐的概念、用模型无关的线性替代物来度量它们的影响，InterVLS 系统促进了模型的理解，通过视觉分析提供基于概念的解释和性能洞察，使用户能够调整概念的影响来更新模型，可实现无编码模型的改进。

Nov, 2023