ACLApr, 2022

Co-VQA: 交互子问题序列回答

TL;DR本文提出了一个基于会话的视觉问答框架,包括三个组件:问话者,Oracle 和答案者,其中 ACVRM 用于答案者。通过对过程进行模拟,作者对每个问题建立了一个 SQS 来进行监督学习,实验结果表明这种方法在 VQA-CP v2 上实现了最新颖的性能。