基于检索增强的生成模型用于知识密集型自然语言处理任务
检视检索增强生成 (RAG) 方法,揭示语言模型倾向于仅依赖上下文信息来回答问题,而较少使用参数化记忆,通过因果中介分析和注意力机制等方法来证明该机械行为。
Jun, 2024
大型语言模型(LLMs)在实际应用中仍面临幻觉、知识更新缓慢和答案透明度不足等挑战。检索增强生成(RAG)是指在 LLMs 回答问题之前从外部知识库中检索相关信息。该论文概述了 LLMs 时代 RAG 的发展范式,总结了三种范式:Naive RAG,Advanced RAG 和 Modular RAG。同时,它提供了 RAG 的三个主要组成部分:检索器、生成器和增强方法的摘要和组织,以及每个组件的关键技术。此外,论文讨论了如何评估 RAG 模型的有效性,并介绍了两种 RAG 的评估方法、重点指标和能力,以及最新的自动评估框架。最后,从垂直优化、水平可扩展性和 RAG 的技术堆栈和生态系统三个方面引入了潜在的未来研究方向。
Dec, 2023
Retrieval-Augmented Generation (RAG) 是一种合并检索方法和深度学习技术的方法,旨在通过动态整合最新的外部信息解决大型语言模型(LLMs)的静态限制,并通过使用真实世界的数据提供一种成本效益的解决方案来改进 LLMs 输出的准确性和可靠性。该研究将 RAG 范式分为四个类别,并从检索的角度提供了详细的视角,同时介绍了 RAG 的演进和领域的进展。此外,该论文还提出了针对 RAG 的评估方法,并提出了面临的挑战和未来的研究方向,旨在巩固现有的 RAG 研究,明确其技术基础,并突出其扩展 LLMs 的适应性和应用潜力。
Apr, 2024
MuRAG 是第一个多模态检索增强变压器,利用外部非参数多模态存储器来增强语言生成,并在 WebQA 和 MultimodalQA 两个数据集上实现了最新的准确性,优于现有模型 10-20%绝对值。
Oct, 2022
Re2G 利用神经检索和排名策略结合 BART 序列生成器,在零 - shot 填槽、问答、事实核查和对话等任务中取得了相对增益为 9% 至 34% 的较大提升,是目前 KILT 排行榜上最先进的模型。
Jul, 2022
通过细调、检索增强生成(RAG)和软提示等方法提高大型语言模型(LLMs)的性能的研究一般侧重于使用高度技术性或高成本的技术,使许多新发现的方法对非技术用户相对不可访问。在本文中,我们测试了未修改版本的 GPT 3.5,经过细调的版本,以及相同的未修改模型在访问矢量化的 RAG 数据库时,单独或与基本的非算法软提示相结合。每种情况下,我们测试了模型回答一组 100 个与 2021 年 9 月之后(GPT 3.5 的训练数据集结束的时间点)相关的事件问题的能力。我们发现,如果使用商业平台并应用默认设置以建立基准输出集,经过细调的模型优于 GPT 3.5 Turbo,而 RAG 方法优于两者。应用软提示显著提高了每种方法的性能。
Nov, 2023
基于 ROUGE、BLEU、METEOR 分数和余弦相似度的衡量标准,我们对 GPT-J-6B、OPT-6.7B、LlaMA、LlaMA-2 这几种语言模型的 RAG 和 FN 技术的性能进行了比较和分析,结果表明 RAG 基于构造的模型较 FN 更有效。我们进一步指出 RAG 和 FN 的连接并不简单,因为将 FN 模型与 RAG 相连会导致性能下降。此外,我们提出了一种简单的基于 RAG 的架构,平均而言在 ROGUE 评分上比 FN 模型高出 16%,在 BLEU 评分上高出 15%,在余弦相似度上高出 53%。这显示了 RAG 相比 FN 在幻觉方面的显著优势,而 FN 模型的平均 8% 更好的 METEOR 分数则表明其与 RAG 相比具有更高的创造力。
Mar, 2024
比较 fine-tuning 和 retrieval-augmented generation (RAG) 两种方法,发现 RAG 在不同主题的知识密集型任务中始终优于 fine-tuning,并且 LLMs 在 fine-tuning 中难以学习新的事实信息,通过在训练过程中暴露它们于相同事实的多个变体可以缓解这个问题。
Dec, 2023
通过学习可扩展且可插拔的虚拟标记,我们的方法在保持大型语言模型的原始参数的基础上,仅对这些可插入标记的嵌入进行微调,从而提高了大型语言模型的性能并保留了其普遍的生成能力。
May, 2024