视觉语言预训练模型是否学习可组合的基本概念？

Mar, 2022

视觉语言预训练模型是否学习可组合的基本概念？

Do Vision-Language Pretrained Models Learn Composable Primitive Concepts?

Tian Yun, Usha Bhalla, Ellie Pavlick, Chen Sun

TL;DR本文研究预训练可视化学习模型是否会自动产生原始概念的表示，例如物体部分的颜色和形状，提出了一个用于探究这个问题的两步框架：组合概念映射 (CompMap)，证明组合模型可以被设计为一组操作，并发现用基本概念激活的模型可以用于细粒度视觉识别和组合泛化任务。

Abstract

In this paper, we study whether representations of primitive concepts--such as colors and shapes of object parts--emerge automatically within these pretrained VL models. We propose a two-step framework, Compositional Concept Mapping (CompMap), to investigate this. CompMap asks a VL mod

visual recognition pretrained models primitive concepts composition model interpretability

发现论文，激发创造

预训练的视觉语言模型学习可发现的视觉概念

视觉语言模型能够预测图像中的视觉概念，例如 'brown'（颜色）和'spiky'（纹理），这种免费学习的能力可以广泛应用于神经符号推理或人可解释的对象分类。通过定义和评估视觉概念的新策略，我们证实预训练的视觉语言模型通过文字提示可以提取出准确全面的视觉概念，这一概念发现与学习框架能够为多样化的视觉识别数据集提供准确的描述。

Apr, 2024

迭代学习在大型视觉语言模型中提高组合性

通过引入一种新的迭代训练算法，以文化传播作为归纳先验，本研究以视觉代理和语言代理之间的 Lewis 信号游戏重新定义了视觉 - 语言对比学习，并通过在训练过程中迭代重置代理权重的方式实现文化传播，使得模型对于合成语言的特性变得更易于学习，达到了在 SugarCrepe 评测中相比标准 CLIP 模型分别提升 4.7% 和 4.0% 的效果。

Apr, 2024

视觉概念学习中的组合多样性

本文探讨了人类与计算机视觉模型在不同类型的视觉组合任务中的差异，通过大程序空间中的最佳程序来生成具有丰富关系结构的候选视觉对象，发现人类和程序感知上存在着一些相同点，同时在一些结构上存在不同，其中，形成新的概念主要涉及到的是组合机制和抽象。

May, 2023

大型视觉 - 语言模型中的复合推理引导

使用一种新颖的生成方法，我们对大型视觉语言模型（如 GPT-4）进行控制，以描述图像并进行组合推理，在 Winoground 数据集上优于其他嵌入式方法，并在最佳描述的增强下获得最高 10% 的准确率改进。

Jan, 2024

视觉概念与组合投票

本文着眼于深度神经网络内部表示的研究，并使用聚类算法提取了一组视觉概念，展示了这些概念可以用于语义部分检测的无监督方法，并将这些视觉概念组合成了一种简单的模式理论模型，名为 “构成投票”，相较于专门针对语义部分检测的支持向量机和深度网络，证明了这种方法的效果更好。

Nov, 2017

衡量视觉语言模型的语言先验在组合推理中的作用

我们识别了视觉 - 语言组合性的两个源头：语言先验和图像与文本之间的相互作用。我们展示了当前改进组合泛化的尝试依赖于语言先验而非图像信息，并提出了一个不依赖语言先验的组合性新度量标准。

Oct, 2023

3VL：使用树结构教授视觉与语言模型组合概念

通过引入树增强视觉语言（3VL）模型架构和训练技术，以及我们提出的锚定推理方法和差分相关性（DiRe）可解释性工具，本研究扩展任意图像 - 文本对的文本内容为分层树状结构，并将该结构引入模型学习的视觉表示，提高了模型的解释能力和组合推理能力，同时展示了锚定和差分相关性工具的应用。

Dec, 2023

走向概念学习的组合性

利用概念为基础的可解释性方法，通过将其嵌入分解为高级概念，提供了一种深入研究基础模型内部的透视角度。我们展示了现有的无监督概念抽取方法找到的概念并不是可组合的。为了自动发现可组合的概念表示，我们确定了这些表示的两个显著特性，并提出了用于找到符合这些特性的概念的可组合概念抽取算法 (CCE)。我们在图像和文本数据上评估了 CCE，并且结果表明 CCE 找到了更多可组合的概念表示，并在四个下游分类任务上取得了更好的准确率。代码和数据可在 https:// 此网址获取。

Jun, 2024

基于渐进语言观察的组合式零样本学习

在这篇论文中，我们提出渐进式基于语言的观察（PLO）方法，通过预测基于预先观察到的原语的组合类别，动态确定较好的原语观察顺序，使模型能够逐步理解图像内容。通过在三个具有挑战性的数据集上进行广泛实验，我们证明了 PLO 方法相比于最先进的方法，具有更好的组合识别能力。

Nov, 2023

探究大型视觉语言模型的概念理解

本文介绍了一种新的框架，用于探究和提升视觉语言模型的关系、组合和上下文理解。我们提出了一个基准数据集来检测内容理解的三个方面。我们实验了 5 种流行的模型，并发现它们大多数难以展示出概念理解。然而，我们发现交叉注意力可以帮助学习概念理解，并提出了一种新的微调技术，以奖励我们提出的三个概念理解措施。我们希望这些基准测试可以帮助社区评估和改进大型视觉语言模型的概念理解能力。

Apr, 2023