Apr, 2021

TransVG:基于Transformer的端到端视觉定位

TL;DR本文提出了一种基于Transformer的视觉定位框架TransVG,通过建立多模态对应关系,实现使用简单Transformer编码器层替代复杂的融合模块,在五个广泛使用的数据集上取得了一系列最先进的记录并构建了基于Transformer的视觉定位框架基准。