Apr, 2022

通过视觉语言验证和迭代推理来改善视觉定位

TL;DR本研究提出了一种基于transformer的视觉定位框架,通过建立文本条件的区分性特征和执行多阶段跨模态推理来实现精确的视觉定位,并提出了基于文本的视觉上下文信息编码器和多阶段解码器以实现最新的性能。