ICCVJan, 2021

视觉问答的潜变量模型

TL;DR本文提出使用潜在变量模型来解决视觉问答问题,将额外信息(如标题和答案类别)作为潜在变量进行训练,提高了问题回答性能。实验表明该方法在 VQA v2.0 基准测试数据集上优于其他方法。