May, 2024

检索遇见推理:即使高中教科书知识也有益于多模态推理

TL;DR通过引入一种名为 RMR 的新型多模式 RAG 框架,本研究在多模式视觉语言模型中整合了基于检索的答案生成和推理能力,并通过提供相关问答对进行训练来显著提高各种基准数据集上的性能,凸显该框架在改善视觉语言模型的推理能力方面潜力巨大。