评估检索增强生成的检索质量
Retrieval-Augmented Generation (RAG) 系统的评估和分析框架(RGAR)提供了一种基于可测输出和已建立真实性来系统分析 RAG 系统基准的方法,并讨论了当前基准的局限性和进一步研究的潜在方向。
May, 2024
Retrieval-Augmented Generation (RAG) 是一种合并检索方法和深度学习技术的方法,旨在通过动态整合最新的外部信息解决大型语言模型(LLMs)的静态限制,并通过使用真实世界的数据提供一种成本效益的解决方案来改进 LLMs 输出的准确性和可靠性。该研究将 RAG 范式分为四个类别,并从检索的角度提供了详细的视角,同时介绍了 RAG 的演进和领域的进展。此外,该论文还提出了针对 RAG 的评估方法,并提出了面临的挑战和未来的研究方向,旨在巩固现有的 RAG 研究,明确其技术基础,并突出其扩展 LLMs 的适应性和应用潜力。
Apr, 2024
大型语言模型(LLMs)在实际应用中仍面临幻觉、知识更新缓慢和答案透明度不足等挑战。检索增强生成(RAG)是指在 LLMs 回答问题之前从外部知识库中检索相关信息。该论文概述了 LLMs 时代 RAG 的发展范式,总结了三种范式:Naive RAG,Advanced RAG 和 Modular RAG。同时,它提供了 RAG 的三个主要组成部分:检索器、生成器和增强方法的摘要和组织,以及每个组件的关键技术。此外,论文讨论了如何评估 RAG 模型的有效性,并介绍了两种 RAG 的评估方法、重点指标和能力,以及最新的自动评估框架。最后,从垂直优化、水平可扩展性和 RAG 的技术堆栈和生态系统三个方面引入了潜在的未来研究方向。
Dec, 2023
通过对 Retrieval-Augmented Generation 对大型语言模型的影响进行系统调查和评估,本文发现大型语言模型在噪音鲁棒性、负面拒绝、信息整合和对抗性鲁棒性方面存在挑战,表明在将 RAG 有效应用于大型语言模型方面仍有很长的路要走。
Sep, 2023
我们提出了一种新的方法来衡量检索增强的大型语言模型(RAG)的任务特定准确性。通过对与任务相关的文档语料库基于多项选择问题评分的自动生成合成考试来进行评估。我们的方法是自动化、成本高效、可解释和稳健的选择 RAG 系统的最佳组件的策略。我们利用项目反应理论(IRT)估计考试的质量和信息量,以提高任务特定准确性。我们在四个基于 Arxiv 摘要、StackExchange 问题、AWS DevOps 故障排除指南和 SEC 文件的新型开放问答任务上演示了我们的方法。此外,我们的实验揭示了影响 RAG 性能的更一般的因素,如大小、检索机制、提示和微调。最重要的是,我们的研究结果表明,选择正确的检索算法通常比仅仅使用更大的语言模型能够带来更大的性能收益。
May, 2024
整合外部知识到大型语言模型输出,文献调研主要集中于最新方法与之前方法的比较,缺乏广泛的实验比较。本研究通过评估不同检索增强生成方法对检索精度和答案相似性的影响来填补这一空白。研究发现,Hypothetical Document Embedding (HyDE) 和大型语言模型重排能显著提高检索精度。然而,Maximal Marginal Relevance (MMR) 和 Cohere 重排在基线 Naive RAG 系统上没有明显优势,而 Multi-query 方法表现不佳。句窗检索为最有效的检索精度方法,尽管在答案相似性上表现不稳定。研究证实文件摘要索引作为一种有效的检索方法。欢迎学术界进一步探索 RAG 系统的研究,相关资源可通过我们的 GitHub 资源库 ARAGOG 进行进一步调查。
Apr, 2024
通过将外部知识库融入到 Retrieval-Augmented Generation (RAG) 中,提出了一种名为 Dynamic-Relevant Retrieval-Augmented Generation (DR-RAG)的两阶段检索框架,用于改善文档检索的召回率和答案的准确性,同时保持高效性,通过对检索到的文档的贡献进行分类确定相对相关的文档,实验证明 DR-RAG 能显著提高答案的准确性,并在 QA 系统方面取得新的进展。
Jun, 2024
通过研究现有的 RAG 方法及其潜在组合,我们提出了几种既能兼顾性能又能提高效率的 RAG 策略,并证明多模态检索技术能显著增强对视觉输入的问答能力,并使用 “检索即生成” 策略加速多模态内容的生成。
Jul, 2024
大语言模型(LLMs)不可避免地产生幻觉,因为仅依靠它们所封装的参数知识无法确保生成的文本的准确性。为了改善生成的鲁棒性,我们提出了纠正检索增强生成(CRAG)。通过设计轻量级的检索评估模型来评估检索文档的整体质量,并基于此返回信心度,从而触发不同的知识检索操作。此外,利用大规模网络搜索扩展检索结果。通过分解和重组算法,选择性关注关键信息并过滤掉不相关信息。CRAG 与各种基于 RAG 的方法可以无缝连接。在涵盖短文和长文生成任务的四个数据集上的实验表明,CRAG 可以显著提高基于 RAG 的方法的性能。
Jan, 2024
通过结合知识检索,改进大型语言模型的输出的准确性和相关性的检索增强生成(RAG)在企业中的实施面临数据安全、准确性、可扩展性和集成方面的挑战。本文探讨了企业 RAG 的独特需求,调查了当前方法和限制,并讨论了语义搜索、混合查询和优化检索的潜在进展。它提出了一个评估框架,以验证企业 RAG 解决方案的能力,包括定量测试、定性分析、消融研究和行业案例研究。该框架旨在帮助证明面向企业级安全、合规性和集成性能够提供准确性和相关性改进的目的构建的 RAG 架构的能力。本文总结了企业部署的含义、限制和未来研究方向。研究人员与行业合作伙伴之间的密切合作可能加速检索增强生成技术的开发和部署的进展。
May, 2024