BriefGPT.xyz
May, 2021
使用Transformer进行视觉定位
Visual Grounding with Transformers
HTML
PDF
Ye Du, Zehua Fu, Qingjie Liu, Yunhong Wang
TL;DR
该论文提出了一种基于Transformer编码器-解码器的视觉 grounding 方法,通过在不损伤位置定位能力的前提下,在文本描述的指导下学习语义鉴别的视觉特征,具有强大的文本-视觉语境语义捕捉能力。实验结果表明,在保持快速推理速度的同时,该方法在五个基准上优于现有的提案-free 方法。
Abstract
In this paper, we propose a
transformer
based approach for
visual grounding
. Unlike previous proposal-and-rank frameworks that rely heavily on pretrained object detectors or proposal-free frameworks that upgrade
→