运用场景知识推进视觉连接：基准与方法

Jul, 2023

运用场景知识推进视觉连接：基准与方法

Advancing Visual Grounding with Scene Knowledge: Benchmark and Method

Zhihong Chen, Ruifei Zhang, Yibing Song, Xiang Wan, Guanbin Li

TL;DR本文提出了一个新的基准数据集SK-VG，其中图像内容和指代表达不足以确定目标对象，迫使模型在长篇场景知识上具备推理能力。我们提出了两种方法来接受三元类型的输入，前者在图像查询交互之前将知识嵌入图像特征，后者利用语言结构来辅助计算图像文本匹配。通过大量实验证明了所提方法的可行性，并展示了他们取得的有希望的结果，但仍有改进的空间，包括性能和可解释性。

Abstract

visual grounding (VG) aims to establish fine-grained alignment between vision and language. Ideally, it can be a testbed for vision-and-language models to evaluate their understanding of the images and texts and their reasoning abilities over their joint space. However, most existing V

发现论文，激发创造

再探视觉定位

本文重新审视了 Johnson 等人于 2015 年提出的“使用场景图像检索单元进行图像检索”的图像 grounding 方法，发现该方法没有有效地使用其学习的物体-关系模型。同时，作者还研究了 IRSG 数据集和 VRD 数据集，并发现这些数据集存在偏差，容易让忽略关系的方法表现较好。作者通过对数据集进行子集处理等方法来解决这些问题，研究结果有助于更好地理解自然语言和视觉相结合的机器学习方法以及流行数据集测试的情况。

Apr, 2019

使用Transformer进行视觉定位

该论文提出了一种基于Transformer编码器-解码器的视觉 grounding 方法，通过在不损伤位置定位能力的前提下，在文本描述的指导下学习语义鉴别的视觉特征，具有强大的文本-视觉语境语义捕捉能力。实验结果表明，在保持快速推理速度的同时，该方法在五个基准上优于现有的提案-free 方法。

May, 2021

通过视觉语言验证和迭代推理来改善视觉定位

本研究提出了一种基于transformer的视觉定位框架，通过建立文本条件的区分性特征和执行多阶段跨模态推理来实现精确的视觉定位，并提出了基于文本的视觉上下文信息编码器和多阶段解码器以实现最新的性能。

Apr, 2022

语言引导扩散模型用于视觉定位

通过去噪扩散建模的语言引导扩散框架（LG-DVG）提出了一种逐步推理的视觉定位方法，可持续改进查询-区域匹配，在跨模态对齐任务中以生成方式解决视觉定位，并在多个数据集上验证其超凡性能。

Aug, 2023

基于视觉语义对齐的弱监督三维视觉定位

基于大规模视觉-语言模型的弱监督学习方法，利用2D图像和3D点云之间天然存在的对应关系，无需精细标注的边界框注释，通过学习文本-3D对应，实现文本查询与3D目标物的关联。实验结果在ReferIt3D和ScanRefer数据集上表明，3D-VLA方法实现了与完全监督方法相当甚至更出色的效果。

Dec, 2023

上下文解缠和原型继承的鲁棒视觉定位

我们提出了一种新的框架，通过上下文解藕和原型继承来处理标准场景和开放词汇场景下的鲁棒视觉定位，实验证明我们的方法在两种情景中优于现有方法。

Dec, 2023

Q-GroundCAM: 通过GradCAM度量视觉语言模型中的基准化能力

Vision and Language Models (VLMs) have remarkable zero-shot performance, but struggle with compositional scene understanding and linguistic phrase grounding. This paper introduces novel quantitative metrics using GradCAM activations to evaluate pre-trained VLMs' grounding capabilities and measure their uncertainty, revealing tradeoffs between model size, dataset size, and performance.

Apr, 2024

ResVG：增强多实例视觉定位中的关系和语义理解

本研究针对现有方法在多实例干扰下准确定位目标物体的挑战，提出了一种新的关系和语义敏感视觉定位模型（ResVG）。该模型通过注入来自文本查询的语义先验信息和实施关系敏感的数据增强方法，显著提高了对物体语义与空间关系的理解，从而在视觉定位任务中取得了更好的性能表现。

Aug, 2024

SimVG：一种简单的多模态解耦融合视觉定位框架

本研究针对现有视觉定位方法在复杂文本表达下性能显著下降的问题，提出了一种新的变换器基础框架SimVG。通过解耦视觉-语言特征融合并引入额外的对象标记，该方法显著提高了视觉定位的效率和收敛速度，同时在多个基准测试上达成了新的最先进性能。

Sep, 2024

MC-Bench：多上下文视觉定位基准

本研究解决了多模态大语言模型（MLLMs）在实例级视觉语言问题上的局限性，提出了一种新的任务“多上下文视觉定位”。通过构建包含2K高质量标注样本的MC-Bench数据集，为评估MLLMs的能力提供了基准，研究发现现有MLLMs在多图场景下的表现显著低于人类，推动相关领域的进一步研究。

Oct, 2024