Sep, 2020
AttnGrounder:使用注意力与汽车交互
AttnGrounder: Talking to Cars with Attention
TL;DR提出一个名为Attention Grounder(AttnGrounder)的单阶段端到端可训练模型,用于视觉定位任务。通过使用视觉文本注意力模块,该模型能够在给定自然语言文本查询的基础上,与图像中的每个区域相关联来构建区域依赖的文本表示。 此外,借助视觉文本注意力模块,我们生成围绕所指物体的注意力蒙版,以提高模型的定位能力。模型在Talk2Car数据集上进行了评估,并显示与现有方法相比,改进了3.26%。