语言驱动的视觉概念学习

Dec, 2023

Language-Informed Visual Concept Learning

Sharon Lee, Yunzhi Zhang, Shangzhe Wu, Jiajun Wu

TL;DR通过从大型预训练的视觉语言模型中提取和训练一组概念编码器，我们的目标是学习一种以语言为导向的视觉概念表示，以重现输入图像，并通过遵循一组与视觉相关的概念轴从新的测试图像中提取概念嵌入，从而生成具有视觉概念新组合的图像。

Abstract

Our understanding of the visual world is centered around various concept axes, characterizing different aspects of visual entities. While different concept axes can be easily specified by language, e.g. color, th

visual world concept axes language-informed concept encoders disentanglement

发现论文，激发创造

预训练的视觉语言模型学习可发现的视觉概念

视觉语言模型能够预测图像中的视觉概念，例如 'brown'（颜色）和'spiky'（纹理），这种免费学习的能力可以广泛应用于神经符号推理或人可解释的对象分类。通过定义和评估视觉概念的新策略，我们证实预训练的视觉语言模型通过文字提示可以提取出准确全面的视觉概念，这一概念发现与学习框架能够为多样化的视觉识别数据集提供准确的描述。

Apr, 2024

跨语言文化下的视觉推理

通过引入印尼语、汉语、斯瓦希里语、泰米尔语和土耳其语等语言，构建了一个新的 ImageNet-style 分层协议，从本地化的角度推荐相关概念和图像，建立了一个用于多文化及多语言视觉和语言推理的数据集 MaRVL，并列举出一系列现代模型的基线，发现其跨语言性能显著滞后于英语的监督性能。

Sep, 2021

分析 Transformer 语言模型中的编码概念

本文提出了一个新颖的框架 ConceptX，利用聚类发现预训练语言模型中编码的潜在概念，并通过与大量人类定义的概念进行对齐进行解释。它在七个变压器语言模型上的分析揭示了有趣的见解：i）学习表示中的潜在空间以不同的程度与不同的语言概念重叠，ii）模型中的较低层由词汇概念（例如，词缀）主导，而核心语言概念（例如，形态或句法关系）在中高层中更好地表示，iii）一些编码的概念具有多面性，无法用现有的人类定义概念充分说明。

Jun, 2022

FALCON：通过整合图像、语言描述和概念相关性快速进行视觉概念学习

该文提出了一种元学习框架，通过同时观察图片、阅读描述场景中对象的句子和解释补充句子等多个自然出现的数据流来快速学习新的视觉概念，支持问答等应用，其模型命名为 FALCON，使用方框嵌入空间表示视觉概念，包括颜色和形状，并利用关系推理技术推理出未知视觉概念的最优方框嵌入。

Mar, 2022

GAN 潜空间的视觉概念词汇

本文介绍了一种新的方法，针对生成对抗网络（GAN）中的潜在空间建立无限制的基元视觉概念词汇表，该方法通过三个组件实现：(1) 基于层选择自动识别知觉显著方向；(2) 人工注释这些方向以自由形式的组成自然语言描述，以及 (3) 将这些注释分解为视觉概念词汇表，由单词标记的精简方向组成。实验表明，使用我们的方法学习的概念是可靠和可组合的 - 概念可以跨越类别、上下文和观察者进行概括，并且可以实现对图像风格和内容的精细操作。

Oct, 2021

视听概念系统的跨模态对齐学习

本文提出了学习与婴儿词汇学习机制相似的视觉 - 语言概念系统的方法，包括了在线学习视觉对象和词汇之间的关联以及自监督学习的语义表示等。作者在目标词与词语匹配以及零样本学习任务中进行了定量和定性检验，结果表明该模型在性能方面优于其他基础模型并实现了概念系统的拓扑对齐。

Jul, 2022

ConES：用于参数高效调整大型视觉语言模型的概念嵌入搜索

本文提出基于概念嵌入搜索 (ConES) 的方法，通过优化提示嵌入来捕捉图像模态的概念，从而实现更轻便高效的训练范式，同时在分割、检测、生成等多个下游任务中展现了显著的效果。

May, 2023

探究大型视觉语言模型的概念理解

本文介绍了一种新的框架，用于探究和提升视觉语言模型的关系、组合和上下文理解。我们提出了一个基准数据集来检测内容理解的三个方面。我们实验了 5 种流行的模型，并发现它们大多数难以展示出概念理解。然而，我们发现交叉注意力可以帮助学习概念理解，并提出了一种新的微调技术，以奖励我们提出的三个概念理解措施。我们希望这些基准测试可以帮助社区评估和改进大型视觉语言模型的概念理解能力。

Apr, 2023

抽象概念的文本到图像生成

通过利用三层艺术理论的建议，我们提出了一种用于抽象概念的文本到图像生成的框架，该框架通过将抽象概念转化为明确的意图、从 LLMs 中提取的语义相关的物体和依赖于概念的形式来生成图像。人类评估结果和我们设计的概念评分指标的评价结果证明了我们的框架在表达抽象概念方面的有效性。

Sep, 2023

通过语言引导采样学习视觉表征

本文提出一种新颖的视觉表达学习方法，使用语言相似性来对比学习语义相似的图像对，通过对比语言的相似性来采样图像视图对，避免手工增强和学习聚类。我们的方法通过预训练语言模型来引导学习，显示出比基于图像和图像 - 文本表征学习方法更好的特征。

Feb, 2023