BriefGPT.xyz
Apr, 2021
TransVG:基于Transformer的端到端视觉定位
TransVG: End-to-End Visual Grounding with Transformers
HTML
PDF
Jiajun Deng, Zhengyuan Yang, Tianlang Chen, Wengang Zhou, Houqiang Li
TL;DR
本文提出了一种基于Transformer的视觉定位框架TransVG,通过建立多模态对应关系,实现使用简单Transformer编码器层替代复杂的融合模块,在五个广泛使用的数据集上取得了一系列最先进的记录并构建了基于Transformer的视觉定位框架基准。
Abstract
In this paper, we present a neat yet effective
transformer-based framework
for
visual grounding
, namely
transvg
, to address the task of gr
→