May, 2021

使用 Transformer 进行视觉定位

TL;DR该论文提出了一种基于 Transformer 编码器 - 解码器的视觉 grounding 方法,通过在不损伤位置定位能力的前提下,在文本描述的指导下学习语义鉴别的视觉特征,具有强大的文本 - 视觉语境语义捕捉能力。实验结果表明,在保持快速推理速度的同时,该方法在五个基准上优于现有的提案 - free 方法。