定位插入：解锁 VLM 中物体定位能力

Feb, 2024

定位插入：解锁 VLM 中物体定位能力

PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs

Michael Dorkenwald, Nimrod Barazani, Cees G. M. Snoek, Yuki M. Asano

TL;DR本研究旨在通过保持基于标题的 Vision-Language Model 的权重不变以及不使用任何受监督的检测数据的方法来解决目标定位的挑战，并引入一个可学习的空间提示模块（PIN），通过在冻结的 VLM 内滑动包含一小组参数的 PIN 模块来实现目标定位能力，实验结果在包括 Pascal VOC、COCO、LVIS 以及绘画或卡通等各种图像上表现出强大的零样本定位能力。

Abstract

vision-language models (VLMs), such as Flamingo and GPT-4V, have shown immense potential by integrating large language models with vision systems. Nevertheless, these models face challenges in the fundamental computer vision task of →

vision-language models object localisation caption-based vlms input-agnostic positional insert zero-shot localisation

发现论文，激发创造

探究位置信息在视觉语言模型中的作用

研究了视觉语言模型中的位置信息对图像 - 文本匹配任务的影响，并提出了两种解决策略，即位置信息预训练和基于交叉模态匹配的对比学习。结果显示，即使位置信息存在，模型仍不能正确地分类具有详细位置语句的图像。

May, 2023

PEVL：基于位置增强的预训练和提示微调的视觉语言模型

本研究提出了一种名为 PEVL 的显式目标位置建模方法，来提高 VLP 模型在特定视觉 - 语言任务（如指称表达理解和视觉常识推理）上的性能。该方法通过将离散化目标位置与语言内容整合到一个语言建模框架中，在预训练和提示微调阶段实现显式的视觉 - 语言对齐，并为各种下游任务提供了灵活的提示微调方式。实验结果显示，PEVL 在无检测器的 VLP 模型上能够取得最先进的性能，即在特定视觉 - 语言任务上取得优异的表现，也能提高在具有定位敏感输入的任务上的性能。

May, 2022

VLM-PL：基于视觉 - 语言模型的高级伪标签方法的类别增量对象检测

在 Class Incremental Object Detection（CIOD）领域，解决模型如何像人类一样持续学习的问题是一个重大挑战。为了克服传统的伪标签方法在多场景增量学习中遗忘过去知识的问题，该研究介绍了一种名为 Vision-Language Model assisted Pseudo-Labeling（VLM-PL）的新方法。通过将图像和文本特征组合设计的提示模板生成自定义查询，借助视觉 - 语言模型（VLM），VLM-PL 技术能够验证伪标签的正确性，而无需额外的模型训练。通过将精细化的伪标签和真实标签整合，并结合新旧知识，VLM-PL 在 Pascal VOC 和 MS COCO 数据集上进行了广泛实验，不仅在多场景问题上表现出色，还在双场景问题上取得了最先进的结果。

Mar, 2024

OLIVE：物体级别的上下文视觉嵌入

通过在上下文中引入视觉对象向量，我们提出了一种新的方法来引导大型语言模型，从而实现可控的对象级推理，消除了融合冗长图像区块特征的必要性，显著加速了训练。此外，我们还提出了使用对象表示进行区域级检索的方法，便于快速适应新对象而无需额外训练。我们的实验证明，我们的方法在参考对象分类和字幕生成性能上达到了竞争力，并提供了零样本泛化和对视觉上具有挑战性的情境的稳健性。

Jun, 2024

学习定位对象提高视觉语言模型的空间推理能力

将大型语言模型（LLM）整合到视觉领域任务中，从而形成视觉 - LLM（V-LLM），在视觉问答（VQA）等视觉语言任务中实现了卓越的性能。通过基于图像坐标的指导微调目标，我们探索了如何为 V-LLM 注入空间意识，包括发现最佳坐标表示、数据效率的指导微调目标和伪数据生成策略。我们的模型在图像和视频领域提升了 VQA 性能，减少了不必要的幻觉，并生成了更好的上下文对象描述。通过涉及 14 个不同数据集的 5 个视觉语言任务的实验，验证了我们提出的框架明显的性能改进。

Apr, 2024

像素对齐的语言模型

本研究探讨了如何使用大型语言模型进行定位任务，包括词语对应定位和参照定位，通过模型的输入和输出使用位置作为参数来生成图像描述，实现稠密单词定位，并在多个视觉和语言任务中达到了最先进的性能。

Dec, 2023

ProbVLM：基于概率的适配器用于冻结的视觉语言模型

该研究提出了 ProbVLM，一种新的方法来评估大规模视觉语言模型的多模态嵌入不确定性，以及如何利用该不确定性来提高主动学习和模型选择的效果。

Jul, 2023

通过预测分配来建立视觉和语言空间的桥梁

该论文介绍了 VLAP（pretrained vision models 和 large language models 之间的视觉理解的桥梁），通过一种新颖的方法，将预训练的视觉模型的嵌入空间转化为大规模语言模型的词嵌入空间，从而有效且通用地实现视觉和语言的理解。

Apr, 2024

消除语言模型的位置偏见：一种机制化方法

通过消除输入段落顺序的不同，我们的方法改变了因果注意力，使其变为段落之间的双向关注，并利用模型关注值来决定段落的相对顺序，从而实现了段落级的位置不变推理（PINE），消除位置偏差使得模型在广泛存在位置偏差的下游任务中获得更好的性能和可靠性。

Jul, 2024

从文本角度探究跨模态语义对齐能力

本文提出了一种基于图像字幕生成的新型探测方法，用于研究视觉语言预训练模型中跨模态语义对齐的内部机制，发现 VLP 模型对齐的主要是对象和视觉词，忽略了全局语义，还存在固定的句子模式，无视语法和流畅性等问题。

Oct, 2022