AttnGrounder：使用注意力与汽车交互

Sep, 2020

AttnGrounder：使用注意力与汽车交互

AttnGrounder: Talking to Cars with Attention

Vivek Mittal

TL;DR提出一个名为Attention Grounder（AttnGrounder）的单阶段端到端可训练模型，用于视觉定位任务。通过使用视觉文本注意力模块，该模型能够在给定自然语言文本查询的基础上，与图像中的每个区域相关联来构建区域依赖的文本表示。此外，借助视觉文本注意力模块，我们生成围绕所指物体的注意力蒙版，以提高模型的定位能力。模型在Talk2Car数据集上进行了评估，并显示与现有方法相比，改进了3.26％。

Abstract

We propose attention grounder (AttnGrounder), a single-stage end-to-end trainable model for the task of visual grounding. visual grounding

发现论文，激发创造

文本短语重建图像基础

通过采用注意力机制来重构给定的短语，本论文提出了一种新的接近无监督学习的方法来学习 grounding，该方法不需要太多的地面实时监督，有效提高了在 Flickr 30k 实体数据集上的表现。

Nov, 2015

一种快速精确的一阶段视觉定位方法

提出一种基于单阶段模型的视觉 grounding 方法，将文本查询的嵌入与 YOLOv3 物体检测器融合，加入空间特征以处理查询中的空间提及，并实现端到端联合优化，实验表明此方法对于短语定位和指代表达理解具有很大的潜力，同时建议在一些常见的区域提议方法上进行细致研究并将视觉 grounding 作为从传统双阶段方法向单阶段框架的范例转移

Aug, 2019

基于区域特定动态层注意力融合的自主车辆指令落地

该研究旨在探讨如何通过语言理解来实现自动驾驶汽车与人之间的交互，通过对多模态信息的自适应融合，提高语义理解准确度，改进对自然语言命令的视觉场景定位能力。实验结果表明，该模型优于目前现有的技术水平。

Mar, 2022

Pseudo-Q：生成视觉定位的伪语言查询

本文提出一种名为Pseudo-Q的新颖方法来自动生成替代人工标注的伪语言查询，以此实现视觉定位目标的目的，通过任务相关的查询提示模块和跨模态多级注意力机制发展视觉语言模型。实验结果表明，该方法可大幅降低人力成本，同时表现出优异的弱监督式视觉定位性能。

Mar, 2022

SeqTR: 一种简单而通用的视觉定位网络

本文提出了一个名为SeqTR的简单且通用的网络，用于视觉定位任务和指代表达理解任务，通过将视觉定位问题视为图像和文本输入的点预测问题，可以在SeqTR网络中统一视觉定位任务而无需任务特定的分支或头，使用简单的交叉熵损失进一步降低了手工损失函数的复杂性，并且在五个基准数据集上进行的实验证明了SeqTR的可行性和优越性。

Mar, 2022

FindIt：自然语言查询下的通用定位

FindIt是一个简单而多功能的框架，有效地统一了各种视觉相关任务，包括基于文本的定位、物体检测和短语理解任务。该框架关键在于实现了一个高效的多尺度融合模块，统一了这些任务的不同需求，并发现使用标准目标检测器可以在不需要特定的设计、损失或先前计算出的结果的情况下，有效地统一这些任务。在多个任务上训练的FindIt框架在短语理解和基于文本的定位方面表现更好，而在物体检测方面表现出竞争性。此外，FindIt相比于单任务的基本线性更好地推广到数据和新类别上。

Mar, 2022

通过视觉语言验证和迭代推理来改善视觉定位

本研究提出了一种基于transformer的视觉定位框架，通过建立文本条件的区分性特征和执行多阶段跨模态推理来实现精确的视觉定位，并提出了基于文本的视觉上下文信息编码器和多阶段解码器以实现最新的性能。

Apr, 2022

通过鼓励一致的基于梯度解释来改善视觉定位

Attention Mask Consistency是一种基于边缘的损失函数，在视觉语言模型预训练中作用使得梯度基础的解释与区域级别注释保持一致，并且比依赖于明确训练对象检测器的区域级注释的模型产生更优秀的视觉定位性能。

Jun, 2022

ResVG：增强多实例视觉定位中的关系和语义理解

本研究针对现有方法在多实例干扰下准确定位目标物体的挑战，提出了一种新的关系和语义敏感视觉定位模型（ResVG）。该模型通过注入来自文本查询的语义先验信息和实施关系敏感的数据增强方法，显著提高了对物体语义与空间关系的理解，从而在视觉定位任务中取得了更好的性能表现。

Aug, 2024

无监督基础下的大型多模态模型中的新兴像素定位

当前大型多模态模型面临着定位语言组件与视觉实体之间关系的挑战。本文提出了一种“关注与分割”的方法，展示了在无明确定位监督的情况下，模型可以自发地培养出基础能力，并通过引入基于扩散的视觉编码器，提升了模型的定位能力。研究结果表明，我们的方法在定位会话生成任务中未使用任何定位监督，仍表现出竞争力，在基础面具召回率上超过了大量监督模型。

Oct, 2024