CVPRMar, 2023

使用答案启发式来启发大型语言模型进行基于知识的视觉问答

TL;DR本论文提出了一种名为 “Prophet” 的框架,采用两个补充答案启发式条目对 GPT-3 进行提示,以提高其理解任务的能力,从而在基于知识的视觉问答方面显著优于所有现有的最先进方法,分别在 OK-VQA 和 A-OKVQA 的测试集上达到了 61.1%和 55.7%的准确率。