一种快速精确的一阶段视觉定位方法

Aug, 2019

一种快速精确的一阶段视觉定位方法

A Fast and Accurate One-Stage Approach to Visual Grounding

Zhengyuan Yang, Boqing Gong, Liwei Wang, Wenbing Huang, Dong Yu...

TL;DR提出一种基于单阶段模型的视觉 grounding 方法，将文本查询的嵌入与 YOLOv3 物体检测器融合，加入空间特征以处理查询中的空间提及，并实现端到端联合优化，实验表明此方法对于短语定位和指代表达理解具有很大的潜力，同时建议在一些常见的区域提议方法上进行细致研究并将视觉 grounding 作为从传统双阶段方法向单阶段框架的范例转移

Abstract

We propose a simple, fast, and accurate one-stage approach to visual grounding, inspired by the following insight. The performances of existing propose-and-rank two-stage methods are capped by the quality of the

发现论文，激发创造

文本短语重建图像基础

通过采用注意力机制来重构给定的短语，本论文提出了一种新的接近无监督学习的方法来学习 grounding，该方法不需要太多的地面实时监督，有效提高了在 Flickr 30k 实体数据集上的表现。

Nov, 2015

单阶段对齐网络实时理解指代表达

本文提出了一种新的端到端模型Single-Stage Grounding network（SSG），用于在图像内定位所指物体，通过多模态交互器和定位器来处理一个指代表达式，提出了引导注意机制和预测视觉属性信息来提高模型性能，并在RefCOCO，RefCOCO +和RefCOCOg数据集上进行了实验，结果表明设备效率高，能在很短时间内完成对所指物体的定位。

Dec, 2018

递归子查询构建提升单阶段视觉定位

提出一种递归子查询构建框架，解决当前一阶段视觉基础的限制，提高了长而复杂查询的精度，效果比现有一阶段基线模型在多个基准数据集上都有显著的提高。

Aug, 2020

AttnGrounder：使用注意力与汽车交互

提出一个名为Attention Grounder（AttnGrounder）的单阶段端到端可训练模型，用于视觉定位任务。通过使用视觉文本注意力模块，该模型能够在给定自然语言文本查询的基础上，与图像中的每个区域相关联来构建区域依赖的文本表示。此外，借助视觉文本注意力模块，我们生成围绕所指物体的注意力蒙版，以提高模型的定位能力。模型在Talk2Car数据集上进行了评估，并显示与现有方法相比，改进了3.26％。

Sep, 2020

引用变压器：一种多任务视觉基础的一步方法

本次研究提出了一个基于transformer架构的单阶段多任务模型，通过融合视觉和语言输入，实现了高度语义转换的视觉语言解析，通过上下文信息和多任务学习，该模型在包括命名实体识别等任务上，取得了比现有方法更加突出的性能优势。

Jun, 2021

SeqTR: 一种简单而通用的视觉定位网络

本文提出了一个名为SeqTR的简单且通用的网络，用于视觉定位任务和指代表达理解任务，通过将视觉定位问题视为图像和文本输入的点预测问题，可以在SeqTR网络中统一视觉定位任务而无需任务特定的分支或头，使用简单的交叉熵损失进一步降低了手工损失函数的复杂性，并且在五个基准数据集上进行的实验证明了SeqTR的可行性和优越性。

Mar, 2022

通过视觉语言验证和迭代推理来改善视觉定位

本研究提出了一种基于transformer的视觉定位框架，通过建立文本条件的区分性特征和执行多阶段跨模态推理来实现精确的视觉定位，并提出了基于文本的视觉上下文信息编码器和多阶段解码器以实现最新的性能。

Apr, 2022

OV-VG：开放词汇视觉定位基准

本研究的关键词是开放式词汇学习、视觉定位、新概念、语言描述和对象检测。通过引入新颖和具有挑战性的任务，即开放式视觉定位与开放式短语定位，这项研究的目标是在语言描述和新对象的定位之间建立联系。我们提出了一种新的框架来加强对新类别的识别，并增强视觉和语言信息之间的对齐。经过广泛的实验验证，我们的提议框架在开放式视觉定位任务上始终达到了最先进的性能。

Oct, 2023

通过自洽解释改进的视觉对准

使用视觉与语言模型、视觉解释方法和近义词进行微调，目标是提高定位能力和对象高亮质量。在多个数据集中，通过该方法相较于基线方法和之前的工作获得了显著的改进。

Dec, 2023

ResVG：增强多实例视觉定位中的关系和语义理解

本研究针对现有方法在多实例干扰下准确定位目标物体的挑战，提出了一种新的关系和语义敏感视觉定位模型（ResVG）。该模型通过注入来自文本查询的语义先验信息和实施关系敏感的数据增强方法，显著提高了对物体语义与空间关系的理解，从而在视觉定位任务中取得了更好的性能表现。

Aug, 2024