Jan, 2023
面向视觉问答中生成答案和解释的统一模型
Towards a Unified Model for Generating Answers and Explanations in
Visual Question Answering
TL;DR提出了一种基于多任务学习的统一模型(UMAE)来解决现有的视觉问答系统中存在的回答和解释分离的问题,其方法涉及在训练数据集中添加人工提示令牌,并在各种 VQA 相关任务上进行细调,实验证明该模型在准确性、解释性和领域外表现等方面均得到了明显的提高。