CVPRApr, 2022
通过视觉语言验证和迭代推理来改善视觉定位
Improving Visual Grounding with Visual-Linguistic Verification and Iterative Reasoning
Li Yang, Yan Xu, Chunfeng Yuan, Wei Liu, Bing Li...
TL;DR本研究提出了一种基于 transformer 的视觉定位框架,通过建立文本条件的区分性特征和执行多阶段跨模态推理来实现精确的视觉定位,并提出了基于文本的视觉上下文信息编码器和多阶段解码器以实现最新的性能。