EMNLPOct, 2022

Plug-and-Play VQA: 使用预训练模型进行零训练的零样例 VQA

TL;DR提出了一种基于模块化框架的零样本视觉问答方法,使用自然语言和网络解释作为中间表示来连接预训练模型,无需额外训练预训练语言模型,实现了领先于最新端到端训练基线的全面表现,可在零样本 VQAv2 和 GQA 上实现最优结果。