基于检索增强生成的大型语言模型的基准测试
大型语言模型(LLMs)在实际应用中仍面临幻觉、知识更新缓慢和答案透明度不足等挑战。检索增强生成(RAG)是指在 LLMs 回答问题之前从外部知识库中检索相关信息。该论文概述了 LLMs 时代 RAG 的发展范式,总结了三种范式:Naive RAG,Advanced RAG 和 Modular RAG。同时,它提供了 RAG 的三个主要组成部分:检索器、生成器和增强方法的摘要和组织,以及每个组件的关键技术。此外,论文讨论了如何评估 RAG 模型的有效性,并介绍了两种 RAG 的评估方法、重点指标和能力,以及最新的自动评估框架。最后,从垂直优化、水平可扩展性和 RAG 的技术堆栈和生态系统三个方面引入了潜在的未来研究方向。
Dec, 2023
Retrieval-Augmented Generation (RAG) 是一种合并检索方法和深度学习技术的方法,旨在通过动态整合最新的外部信息解决大型语言模型(LLMs)的静态限制,并通过使用真实世界的数据提供一种成本效益的解决方案来改进 LLMs 输出的准确性和可靠性。该研究将 RAG 范式分为四个类别,并从检索的角度提供了详细的视角,同时介绍了 RAG 的演进和领域的进展。此外,该论文还提出了针对 RAG 的评估方法,并提出了面临的挑战和未来的研究方向,旨在巩固现有的 RAG 研究,明确其技术基础,并突出其扩展 LLMs 的适应性和应用潜力。
Apr, 2024
Retrieval-Augmented Generation (RAG) 系统的评估和分析框架(RGAR)提供了一种基于可测输出和已建立真实性来系统分析 RAG 系统基准的方法,并讨论了当前基准的局限性和进一步研究的潜在方向。
May, 2024
检视了检索增强型大型语言模型(RA-LLMs)的现有研究,涵盖体系结构、训练策略和应用三个主要技术视角,并介绍了此类模型的基础知识和最新进展,以及它们为大型语言模型(LLMs)带来的实际意义和应用领域的挑战和能力,最后讨论了当前的局限性和未来研究的几个有前途的方向。
May, 2024
大型语言模型(LLMs)在医疗应用中具有重要潜力,而检索增强生成(RAG)被认为是一种有前景的方法来定制 LLMs 中的领域知识。该研究通过开发和评估一个专门针对医疗保健领域、特别关注术前医学的 LLM-RAG 流程,验证了其可行性。
Jan, 2024
通过在医学问答数据集上的大规模实验,我们提出了一种基于检索增强生成的评估框架 MIRAGE,以改善大型语言模型在医学领域中的表现,并通过引入 MedRAG 工具包提高了六个不同语言模型的准确性,最高可达到 18%,将 GPT-3.5 和 Mixtral 的性能提升至 GPT-4 级别。
Feb, 2024
学习改进查询以实现检索增强生成,通过加入外部相关文档,使模型具备显式重写、分解和消歧的能力,并在各种问题回答数据集中取得了优于现有方法的表现。
Mar, 2024
大语言模型(LLMs)不可避免地产生幻觉,因为仅依靠它们所封装的参数知识无法确保生成的文本的准确性。为了改善生成的鲁棒性,我们提出了纠正检索增强生成(CRAG)。通过设计轻量级的检索评估模型来评估检索文档的整体质量,并基于此返回信心度,从而触发不同的知识检索操作。此外,利用大规模网络搜索扩展检索结果。通过分解和重组算法,选择性关注关键信息并过滤掉不相关信息。CRAG 与各种基于 RAG 的方法可以无缝连接。在涵盖短文和长文生成任务的四个数据集上的实验表明,CRAG 可以显著提高基于 RAG 的方法的性能。
Jan, 2024
使用检索增强生成(RAG)的方法将检索到的文本用于增强大型语言模型(LLM)。然而,研究显示 RAG 并不一致有效,甚至可能因检索到的文本含有噪声或错误而误导 LLM,这表明 RAG 具有双重性,既有益又有害。本研究分离和形式化 RAG 的益处和害处,通过表征相似度来近似它们之间的差距,并建立它们之间的权衡机制,使其可解释、可量化和可比较。根据我们的理论,提出了一种实用的新方法 X-RAG,在标记级别上实现纯 LLM 和 RAG 的协同生成,以保留好处和避免害处。基于 OPT、LLaMA-2 和 Mistral 的 LLMs 的实验表明了我们方法的有效性并支持了我们的理论结果。
Jun, 2024