CVPRApr, 2024

Wiki-LLaVA: 分层的检索增强生成模型用于多模态语言模型

TL;DR我们提出了一种名为 Wiki-LLaVA 的方法,通过一个分层检索流程,将多模态文档的外部知识源集成到 LLM 中,用作额外的上下文,从而增强了生成的对话的效果和准确性。我们在具有外部数据的视觉问答数据集上进行了大量实验,并证明了该方法的适用性。