多模式检索增强生成式常识推理

Feb, 2024

MORE: Multi-mOdal REtrieval Augmented Generative Commonsense Reasoning

Wanqing Cui, Keping Bi, Jiafeng Guo, Xueqi Cheng

TL;DR提出了一种新颖的多模式检索 (MORE) 增强框架，利用文本和图像来增强语言模型的常识能力。在 Common-Gen 任务上的大量实验表明，MORE 基于单一和多模态的预训练模型具有较高的效果。

Abstract

Since commonsense information has been recorded significantly less frequently than its existence, language models pre-trained by text generation have difficulty to learn sufficient commonsense knowledge. Several

commonsense knowledge language models text retrieval images multi-modal retrieval (more)

发现论文，激发创造

检索增强型通识生成模型

采用检索方法增强先前训练和微调，提出了一种新的框架用于增强常识生成，通过原型句子候选集，进一步使用可训练的句子检索器提高其性能，并在大规模 CommonGen 基准测试上实现了最新的最优结果。

May, 2021

通过多图像生成改善语言模型中的视觉常识

基于多模态知识的常识推理是根本，我们介绍了一种方法来增强大型语言模型的视觉常识能力，该方法通过生成多个图像并将其与模型的决策过程相融合来提供综合的图像和文本知识。这种方法在不仅在视觉常识上，还在传统自然语言处理基准上优于现有基线模型。

Jun, 2024

检索增强通识推理：一种统一方法

本文提出了一种统一的基于检索增强的通识推理框架（RACo），包括一个新构建的包含 2000 万个文档的通识语料库和训练通识检索器的新策略。对四个不同的通识推理任务进行的广泛评估结果表明，我们提出的 RACo 可以显著优于其他知识增强方法的竞争者，在 CommonGen 和 CREAK 排行榜上取得了新的 SoTA 性能。

Oct, 2022

检索增强生成的多模态信息：一项调查

本文综述了检索多模态知识以辅助和增强生成模型的方法，并提供了对从外部来源（包括图像、代码、表格、图形和音频）检索根据的关注点的深入探讨，包括事实性、推理、可解释性和鲁棒性。

Mar, 2023

检索、字幕、生成：视觉基础为文本生成模型增强常识

本研究探讨了利用图像中的多模态信息增强文本生成 Transformer 模型通用知识的有效方法。我们使用 BART 和 T5 进行了实验，并通过 VisCTG 方法成功地改善了通用知识、流畅性和特定性等问题的基线文本生成模型。

Sep, 2021

检索增强的多模态语言建模

提出了一种 “检索增强的多模态模型”，结合了预检索检索任务和预训练的模型，在图像生成和描述生成任务上实现了比以前模型更好的表现，同时大大降低了训练成本。

Nov, 2022

检索遇见推理：即使高中教科书知识也有益于多模态推理

通过引入一种名为 RMR 的新型多模式 RAG 框架，本研究在多模式视觉语言模型中整合了基于检索的答案生成和推理能力，并通过提供相关问答对进行训练来显著提高各种基准数据集上的性能，凸显该框架在改善视觉语言模型的推理能力方面潜力巨大。

May, 2024

MuRAG: 图像和文本开放式问答的多模式检索增强生成器

MuRAG 是第一个多模态检索增强变压器，利用外部非参数多模态存储器来增强语言生成，并在 WebQA 和 MultimodalQA 两个数据集上实现了最新的准确性，优于现有模型 10-20％绝对值。

Oct, 2022

利用大型语言模型的生成式多模态知识检索

我们提出了一种创新的端到端生成框架，用于多模态知识检索，通过利用大型语言模型 (LLMs) 作为虚拟知识库，使用对象感知的前缀调优技术来指导多粒度视觉学习，将多粒度视觉特征对齐到 LLM 的文本特征空间中，通过统一格式的指令数据构建模型训练，最后，我们提出了知识引导的生成策略，在解码步骤中施加先验约束，促进独特知识线索的生成，在三个基准测试中实验证明，与强基线方法相比，在所有评估指标上均取得了 3.0% 到 14.6% 的显著改进。

Jan, 2024

强化信息检索与生成的大型语言模型

我们提出了一种迭代检索 - 生成的协作框架，该框架可以利用参数化和非参数化知识，帮助找到正确的推理路径，并显著提高大型语言模型的推理能力。实验结果显示我们的方法优于之前的基线模型，在单跳和多跳问答任务上取得了显著的改进。

Oct, 2023