CVPRJun, 2022

如何证明?双重视觉 - 语言交互的答案定位

TL;DR本文提出了一种名为 DaVI 的新型统一端到端框架,具有语言回答和视觉定位的能力,引入了两种视觉 - 语言交互机制来解决答案定位问题,并在 2022 年 VizWiz 大挑战中获得了第一名。