Feb, 2024

GeReA: 针对基于知识的视觉问答的问题感知提示标题

TL;DR我们提出了一种名为GeReA的生成-推理框架,利用视觉和语言信息激活了多模态大语言模型(MLLM)作为隐式知识引擎,用于基于知识的视觉问答,它在OK-VQA和A-OKVQA数据集上的测试准确率分别为66.5%和63.3%,超过了所有先前的最先进方法。