再探视觉定位

Apr, 2019

Revisiting Visual Grounding

Erik Conser, Kennedy Hahn, Chandler M. Watson, Melanie Mitchell

TL;DR本文重新审视了 Johnson 等人于 2015 年提出的“使用场景图像检索单元进行图像检索”的图像 grounding 方法，发现该方法没有有效地使用其学习的物体-关系模型。同时，作者还研究了 IRSG 数据集和 VRD 数据集，并发现这些数据集存在偏差，容易让忽略关系的方法表现较好。作者通过对数据集进行子集处理等方法来解决这些问题，研究结果有助于更好地理解自然语言和视觉相结合的机器学习方法以及流行数据集测试的情况。

Abstract

We revisit a particular visual grounding method: the "Image Retrieval Using Scene Graphs" (IRSG) system of Johnson et al. (2015). Our experiments indicate that the system does not effectively use its learned object-rela

发现论文，激发创造

重构用于视觉 grounding 的多样化和区分度建议生成

本文介绍了Diversified and Discriminative Proposal Networks模型（DDPN），并在此基础上提出了一个高性能的视觉定位基线模型，通过在四个基准数据集上进行评估，证明了该模型在所有测试数据集上都有显着改善。

May, 2018

减少偏差的模型生成场景图

提出了一种基于自学知识的场景图生成模型训练方案，使用两个关系分类器减少标注偏差和稀疏标注造成的影响，并在多个标准场景图生成任务中观察到了显著的相对改进。

Aug, 2020

以对象为中心的视觉推理诊断

该研究旨在通过评估不同模型在视觉推理方面的表现来回答视觉问答模型是否在进行视觉推理，为此，研究使用了GQA数据集中提供的目标细粒度标注，提出了一种系统性的目标中心的视觉推理诊断方法，并开发了一个名为图形推理机的诊断模型，该模型使用概率场景图替代纯符号视觉表示，并对视觉推理模块进行了教师强制训练。

Dec, 2020

TransVG：基于Transformer的端到端视觉定位

本文提出了一种基于Transformer的视觉定位框架TransVG，通过建立多模态对应关系，实现使用简单Transformer编码器层替代复杂的融合模块，在五个广泛使用的数据集上取得了一系列最先进的记录并构建了基于Transformer的视觉定位框架基准。

Apr, 2021

去混淆的视觉定位

通过构建因果图，打破了视觉定位过程中的语言-位置混杂偏差，提出了去混杂视觉定位的新方法Referring Expression Deconfounder（RED），并且在各类基准测试中取得了显著的提升。

Dec, 2021

怀疑对象的重要性：重新思考单阶段视觉定位模型的预测

本文提出了一个基于可疑对象图和关键词感知节点表示的一阶视觉定位的方法，用于解决在一阶视觉定位中由于可疑对象的存在导致模型预测错误的问题，并在广泛的基准测试中展示了其有效性。

Mar, 2022

运用场景知识推进视觉连接：基准与方法

本文提出了一个新的基准数据集SK-VG，其中图像内容和指代表达不足以确定目标对象，迫使模型在长篇场景知识上具备推理能力。我们提出了两种方法来接受三元类型的输入，前者在图像查询交互之前将知识嵌入图像特征，后者利用语言结构来辅助计算图像文本匹配。通过大量实验证明了所提方法的可行性，并展示了他们取得的有希望的结果，但仍有改进的空间，包括性能和可解释性。

Jul, 2023

上下文解缠和原型继承的鲁棒视觉定位

我们提出了一种新的框架，通过上下文解藕和原型继承来处理标准场景和开放词汇场景下的鲁棒视觉定位，实验证明我们的方法在两种情景中优于现有方法。

Dec, 2023

GroundVLP：从视觉语言预训练和开放词汇对象检测中利用零样本视觉定位

通过现有的图像-文本配对模型和纯物体检测数据，我们提出了一种名为GroundVLP的简单而有效的零样本方法，该方法结合了GradCAM热力图和开放词汇检测器的对象提案，用于捕捉视觉环境并解决视觉定位任务中数据标注不足的挑战，实验结果显示该方法在RefCOCO/+/g数据集上超过了现有零样本方法的28％，并且在Flickr30k实体数据集上与一些非VLP的有监督模型表现相当甚至更好。

Dec, 2023

ResVG：增强多实例视觉定位中的关系和语义理解

本研究针对现有方法在多实例干扰下准确定位目标物体的挑战，提出了一种新的关系和语义敏感视觉定位模型（ResVG）。该模型通过注入来自文本查询的语义先验信息和实施关系敏感的数据增强方法，显著提高了对物体语义与空间关系的理解，从而在视觉定位任务中取得了更好的性能表现。

Aug, 2024