剩下的是错误的 - 对比视觉语言模型剩余的位置不全能

Nov, 2023

剩下的是错误的 - 对比视觉语言模型剩余的位置不全能

What's left can't be right - The remaining positional incompetence of contrastive vision-language models

Nils Hoehing, Ellen Rushe, Anthony Ventresque

TL;DR通过分析数据集和嵌入空间，本文讨论对比视觉语言模型（如 CLIP）缺乏空间理解能力的可能原因。通过关注简单的左右位置关系，我们展示了这种行为是可以预测的，即使使用大规模的数据集；我们证明可以使用合成数据教授这些关系，并且这种方法在自然图像上能够很好地泛化，提高了 Visual Genome Relations 中的左右关系的性能。

Abstract

contrastive vision-language models like CLIP have been found to lack spatial understanding capabilities. In this paper we discuss the possible causes of this phenomenon by analysing both datasets and embedding space. By focusing on simple left-right →

contrastive vision-language models spatial understanding capabilities data analysis positional relations generalization

发现论文，激发创造

视觉语言模型中的问题：探究其在空间推理方面的挑战

通过创造新的语义理解基准数据集，研究表明近期的视觉 - 语言模型在识别基本空间关系方面表现较差，这是由于常用的数据集如 VQAv2 中缺乏关于学习空间关系的可靠数据来源。

Oct, 2023

通过视觉表示精炼视觉 - 语言模型中的偏差感知

通过使用简单的线性探测器，本研究探讨了如何从 CLIP 的嵌入中有效地提取特定任务的核心特征，结果显示 CLIP 的文本表示往往受到了有偏向的预训练数据中具有误导性的相关性的影响，实证结果表明相比文本嵌入，依赖于 CLIP 的视觉表示更为实用，可克服内置偏见。

May, 2024

图像能否代表千言万语？深入探究视觉语言模型的空间推理

大型语言模型和视觉 - 语言模型在广泛的任务和领域表现出了显著的优异性能，但空间理解和推理（人类认知的基本组成部分）仍然未得到充分利用。通过开发多方面的空间推理基准，如关系理解、导航和计数，我们对具有竞争力的语言模型和视觉 - 语言模型进行全面评估。我们的发现揭示了几个在文献中被忽视的反常见观点：（1）空间推理带来了重大挑战，竞争模型可能不如随机猜测；（2）尽管有额外的视觉输入，视觉 - 语言模型通常表现不如纯语言模型；（3）当文本和视觉信息都可用时，如果提供足够的文本线索，多模态语言模型对视觉信息的依赖程度降低。此外，我们证明了利用视觉和文本之间的冗余可以显著提高模型性能。我们希望我们的研究能够为改进空间智能并进一步缩小与人类智能之间的差距的多模态模型的发展提供启示。

Jun, 2024

学习定位对象提高视觉语言模型的空间推理能力

将大型语言模型（LLM）整合到视觉领域任务中，从而形成视觉 - LLM（V-LLM），在视觉问答（VQA）等视觉语言任务中实现了卓越的性能。通过基于图像坐标的指导微调目标，我们探索了如何为 V-LLM 注入空间意识，包括发现最佳坐标表示、数据效率的指导微调目标和伪数据生成策略。我们的模型在图像和视频领域提升了 VQA 性能，减少了不必要的幻觉，并生成了更好的上下文对象描述。通过涉及 14 个不同数据集的 5 个视觉语言任务的实验，验证了我们提出的框架明显的性能改进。

Apr, 2024

对比视觉语言模型中的感知分组

本篇论文研究视觉 - 语言模型在理解图像中物体所在区域和组合视觉相关部分方面的表现，提出一种最小的修改方案，获得了先进的无监督分割结果和对冗余相关性的鲁棒性。

Oct, 2022

基于纯文本语言模型的空间关系基础

文中通过提供对象的显式位置信息并进行适当训练，展示出仅文本的语言模型（Language Models）可以学习到类似 “左侧” 或 “下方” 等空间关系。通过对视觉空间推理（Visual Spatial Reasoning）数据集的一个口语化版本进行实验，其中图像与包含真实或虚假空间关系的文本语句相配对。作者使用现有的物体检测器给图像增添了位置标记，以文本形式表示每个物体的边界框。尽管视觉空间推理数据集较小，但使用位置信息并无明显改进，然而，通过在由作者衍生的合成数据集上进行预训练，使用位置标记的结果显著改善。作者因此展示了位置信息使语言模型能够对空间关系进行基础性的理解，仅文本的语言模型表现优于视觉与语言模型，成为视觉空间推理数据集的最新技术成果。作者的分析显示，仅文本的语言模型在一定程度上能够推广到合成数据集中未出现的关系，并且还学习了比我们用来创建合成数据集的空间规则中所编码的更有用的信息。

Mar, 2024

多模态 LLM 的视觉缺陷探究

通过对 CLIP 模型的视觉嵌入空间与仅视觉自监督学习的对比研究，我们发现最新的多模态大型语言模型（MLLMs）在视觉能力方面仍然存在系统性缺陷。为了解决这些问题，我们提出了一种特征混合（MoF）方法，通过将视觉自监督学习特征与 MLLMs 相结合，显著提高了它们的视觉基础能力，从而表明视觉表示学习仍然是一个待解决的问题，并且准确的视觉基础对于未来成功的多模态系统至关重要。

Jan, 2024

多模态视觉语言模型中的基于实体的视觉空间推理

利用大规模视觉语言模型评估其在不同视觉推理任务中的性能，特别是在理解空间关系方面的能力的研究。通过细粒度的组合性先验来解决空间关系推理任务的评估和排名，结合物体及其位置的核心语义来计算空间子句的最终评分，并比较不同视觉语言模型在空间关系推理方面的能力。

Aug, 2023

视觉语言模型的可扩展性能分析

本文介绍了一种更具可伸缩性的方法，其根据从视觉 - 语言基准中提取的大量多样化特征，并测量它们与目标模型输出的相关性。通过该方法，作者确认了之前发现的 CLIP 表现类似于词袋模型，并且在名词和动词上表现更好；作者还发现 CLIP 在处理具体词语时会出现混淆。该框架可用于其他多模态模型和基准测试。

May, 2023

右边” 在哪儿？：揭示视觉语言导航模型的限制

通过一系列的简单遮盖实验，揭示了某些高性能模型仅依赖于指令的名词标记，并提出了两种训练方法来缓解这个问题。

Nov, 2023