Sep, 2020

AttnGrounder:使用注意力与汽车交互

TL;DR提出一个名为 Attention Grounder(AttnGrounder)的单阶段端到端可训练模型,用于视觉定位任务。通过使用视觉文本注意力模块,该模型能够在给定自然语言文本查询的基础上,与图像中的每个区域相关联来构建区域依赖的文本表示。 此外,借助视觉文本注意力模块,我们生成围绕所指物体的注意力蒙版,以提高模型的定位能力。模型在 Talk2Car 数据集上进行了评估,并显示与现有方法相比,改进了 3.26%。