May, 2021

使用Transformer进行视觉定位

TL;DR该论文提出了一种基于Transformer编码器-解码器的视觉 grounding 方法,通过在不损伤位置定位能力的前提下,在文本描述的指导下学习语义鉴别的视觉特征,具有强大的文本-视觉语境语义捕捉能力。实验结果表明,在保持快速推理速度的同时,该方法在五个基准上优于现有的提案-free 方法。