ICCVApr, 2021

TransVG:基于 Transformer 的端到端视觉定位

TL;DR本文提出了一种基于 Transformer 的视觉定位框架 TransVG,通过建立多模态对应关系,实现使用简单 Transformer 编码器层替代复杂的融合模块,在五个广泛使用的数据集上取得了一系列最先进的记录并构建了基于 Transformer 的视觉定位框架基准。