CVPRJun, 2022
如何证明?双重视觉 - 语言交互的答案定位
Tell Me the Evidence? Dual Visual-Linguistic Interaction for Answer Grounding
Junwen Pan, Guanlin Chen, Yi Liu, Jiexiang Wang, Cheng Bian...
TL;DR本文提出了一种名为 DaVI 的新型统一端到端框架,具有语言回答和视觉定位的能力,引入了两种视觉 - 语言交互机制来解决答案定位问题,并在 2022 年 VizWiz 大挑战中获得了第一名。