Mar, 2023

使用答案启发式来启发大型语言模型进行基于知识的视觉问答

TL;DR本论文提出了一种名为“Prophet”的框架,采用两个补充答案启发式条目对GPT-3进行提示,以提高其理解任务的能力,从而在基于知识的视觉问答方面显著优于所有现有的最先进方法,分别在OK-VQA和A-OKVQA的测试集上达到了61.1%和55.7%的准确率。