ACLJan, 2023

面向视觉问答中生成答案和解释的统一模型

TL;DR提出了一种基于多任务学习的统一模型(UMAE)来解决现有的视觉问答系统中存在的回答和解释分离的问题,其方法涉及在训练数据集中添加人工提示令牌,并在各种 VQA 相关任务上进行细调,实验证明该模型在准确性、解释性和领域外表现等方面均得到了明显的提高。