探究位置信息在视觉语言模型中的作用

ACLMay, 2023

探究位置信息在视觉语言模型中的作用

Probing the Role of Positional Information in Vision-Language Models

Philipp J. Rösch, Jindřich Libovický

TL;DR研究了视觉语言模型中的位置信息对图像 - 文本匹配任务的影响，并提出了两种解决策略，即位置信息预训练和基于交叉模态匹配的对比学习。结果显示，即使位置信息存在，模型仍不能正确地分类具有详细位置语句的图像。

Abstract

In most vision-language models (VL), the understanding of the image structure is enabled by injecting the position information (PI) about objects in the image. In our case study of →

vision-language models position information lxmert visual question answering cross-modality matching

发现论文，激发创造

定位插入：解锁 VLM 中物体定位能力

本研究旨在通过保持基于标题的 Vision-Language Model 的权重不变以及不使用任何受监督的检测数据的方法来解决目标定位的挑战，并引入一个可学习的空间提示模块（PIN），通过在冻结的 VLM 内滑动包含一小组参数的 PIN 模块来实现目标定位能力，实验结果在包括 Pascal VOC、COCO、LVIS 以及绘画或卡通等各种图像上表现出强大的零样本定位能力。

Feb, 2024

从文本角度探究跨模态语义对齐能力

本文提出了一种基于图像字幕生成的新型探测方法，用于研究视觉语言预训练模型中跨模态语义对齐的内部机制，发现 VLP 模型对齐的主要是对象和视觉词，忽略了全局语义，还存在固定的句子模式，无视语法和流畅性等问题。

Oct, 2022

PEVL：基于位置增强的预训练和提示微调的视觉语言模型

本研究提出了一种名为 PEVL 的显式目标位置建模方法，来提高 VLP 模型在特定视觉 - 语言任务（如指称表达理解和视觉常识推理）上的性能。该方法通过将离散化目标位置与语言内容整合到一个语言建模框架中，在预训练和提示微调阶段实现显式的视觉 - 语言对齐，并为各种下游任务提供了灵活的提示微调方式。实验结果显示，PEVL 在无检测器的 VLP 模型上能够取得最先进的性能，即在特定视觉 - 语言任务上取得优异的表现，也能提高在具有定位敏感输入的任务上的性能。

May, 2022

学习定位对象提高视觉语言模型的空间推理能力

将大型语言模型（LLM）整合到视觉领域任务中，从而形成视觉 - LLM（V-LLM），在视觉问答（VQA）等视觉语言任务中实现了卓越的性能。通过基于图像坐标的指导微调目标，我们探索了如何为 V-LLM 注入空间意识，包括发现最佳坐标表示、数据效率的指导微调目标和伪数据生成策略。我们的模型在图像和视频领域提升了 VQA 性能，减少了不必要的幻觉，并生成了更好的上下文对象描述。通过涉及 14 个不同数据集的 5 个视觉语言任务的实验，验证了我们提出的框架明显的性能改进。

Apr, 2024

消除语言模型的位置偏见：一种机制化方法

通过消除输入段落顺序的不同，我们的方法改变了因果注意力，使其变为段落之间的双向关注，并利用模型关注值来决定段落的相对顺序，从而实现了段落级的位置不变推理（PINE），消除位置偏差使得模型在广泛存在位置偏差的下游任务中获得更好的性能和可靠性。

Jul, 2024

定位与语义：语言如何促进视觉表征学习？

我们通过探测的方式比较了视觉 - 语言模型和仅视觉模型的视觉表征，在广泛的任务范畴内评估学习表征的质量，发现视觉 - 语言模型更适合标签预测任务，而仅视觉模型更适合需要更多局部信息的密集预测任务，同时指出语言有利于视觉模型更好地学习语义，但不利于定位。

Dec, 2022

位置工程：通过位置信息调整提升大型语言模型

通过改变提示文本的位置信息而不修改文本本身，位置工程在大型语言模型中提供一种更高效的引导方式，从而在检索增强生成和上下文学习两种常见情景中显著改进了基线性能，因此代表着一种利用大型语言模型能力的有前景的新策略。

Apr, 2024

使用视觉表示探究上下文语言模型的共同基础

本文通过设计一种探针模型，研究了上下文语言模型对应的具体名词在视觉表示方面的关联程度，并发现语言表示本身就具有检索正确对象类别的强信号以及检索图像特定实例的效果，而文本上下文在该过程中发挥了重要作用，但比起人类，具有图像为基础的语言模型在实例检索方面表现稍逊。我们希望这些结果能够启发未来的研究，进一步地理解和改善语言模型的视觉能力。

May, 2020

对比视觉语言模型中的感知分组

本篇论文研究视觉 - 语言模型在理解图像中物体所在区域和组合视觉相关部分方面的表现，提出一种最小的修改方案，获得了先进的无监督分割结果和对冗余相关性的鲁棒性。

Oct, 2022

图像能否代表千言万语？深入探究视觉语言模型的空间推理

大型语言模型和视觉 - 语言模型在广泛的任务和领域表现出了显著的优异性能，但空间理解和推理（人类认知的基本组成部分）仍然未得到充分利用。通过开发多方面的空间推理基准，如关系理解、导航和计数，我们对具有竞争力的语言模型和视觉 - 语言模型进行全面评估。我们的发现揭示了几个在文献中被忽视的反常见观点：（1）空间推理带来了重大挑战，竞争模型可能不如随机猜测；（2）尽管有额外的视觉输入，视觉 - 语言模型通常表现不如纯语言模型；（3）当文本和视觉信息都可用时，如果提供足够的文本线索，多模态语言模型对视觉信息的依赖程度降低。此外，我们证明了利用视觉和文本之间的冗余可以显著提高模型性能。我们希望我们的研究能够为改进空间智能并进一步缩小与人类智能之间的差距的多模态模型的发展提供启示。

Jun, 2024