Feb, 2024

GeReA: 针对基于知识的视觉问答的问题感知提示标题

TL;DR我们提出了一种名为 GeReA 的生成 - 推理框架,利用视觉和语言信息激活了多模态大语言模型(MLLM)作为隐式知识引擎,用于基于知识的视觉问答,它在 OK-VQA 和 A-OKVQA 数据集上的测试准确率分别为 66.5% 和 63.3%,超过了所有先前的最先进方法。