RAGBench: 用于检索增强生成系统的可解释性基准测试
我们介绍了RAGAs(检索增强生成评估)框架,用于无参考评估检索增强生成(RAG)流程,并提出一套可以用来评估不同维度的指标,而无需依赖于人工标注的真值,这对于RAG体系结构的快速评估是至关重要的,尤其是考虑到LLMs的快速采用。
Sep, 2023
大型语言模型(LLMs)在实际应用中仍面临幻觉、知识更新缓慢和答案透明度不足等挑战。检索增强生成(RAG)是指在LLMs回答问题之前从外部知识库中检索相关信息。该论文概述了LLMs时代RAG的发展范式,总结了三种范式:Naive RAG,Advanced RAG和Modular RAG。同时,它提供了RAG的三个主要组成部分:检索器、生成器和增强方法的摘要和组织,以及每个组件的关键技术。此外,论文讨论了如何评估RAG模型的有效性,并介绍了两种RAG的评估方法、重点指标和能力,以及最新的自动评估框架。最后,从垂直优化、水平可扩展性和RAG的技术堆栈和生态系统三个方面引入了潜在的未来研究方向。
Dec, 2023
我们开发了一个新的数据集MultiHop-RAG,它由知识库、大量的多跳查询、它们的真实答案和相应的支持证据组成,并详细介绍了构建数据集的过程。我们进行了两个实验来展示MultiHop-RAG的基准化效用,实验结果表明现有的RAG方法在检索和回答多跳查询上表现不尽人意。我们希望MultiHop-RAG能成为开发有效的RAG系统的有价值资源,从而促进LLMs在实践中的更广泛应用。
Jan, 2024
Retrieval-Augmented Generation (RAG)是一种合并检索方法和深度学习技术的方法,旨在通过动态整合最新的外部信息解决大型语言模型(LLMs)的静态限制,并通过使用真实世界的数据提供一种成本效益的解决方案来改进LLMs输出的准确性和可靠性。该研究将RAG范式分为四个类别,并从检索的角度提供了详细的视角,同时介绍了RAG的演进和领域的进展。此外,该论文还提出了针对RAG的评估方法,并提出了面临的挑战和未来的研究方向,旨在巩固现有的RAG研究,明确其技术基础,并突出其扩展LLMs的适应性和应用潜力。
Apr, 2024
Retrieval-Augmented Generation (RAG)系统的评估和分析框架(RGAR)提供了一种基于可测输出和已建立真实性来系统分析RAG系统基准的方法,并讨论了当前基准的局限性和进一步研究的潜在方向。
May, 2024
使用检索增强生成(RAG)的方法将检索到的文本用于增强大型语言模型(LLM)。然而,研究显示RAG并不一致有效,甚至可能因检索到的文本含有噪声或错误而误导LLM,这表明RAG具有双重性,既有益又有害。本研究分离和形式化RAG的益处和害处,通过表征相似度来近似它们之间的差距,并建立它们之间的权衡机制,使其可解释、可量化和可比较。根据我们的理论,提出了一种实用的新方法X-RAG,在标记级别上实现纯LLM和RAG的协同生成,以保留好处和避免害处。基于OPT、LLaMA-2和Mistral的LLMs的实验表明了我们方法的有效性并支持了我们的理论结果。
Jun, 2024
以BERT为基础的生成模型,利用外部知识辅助检索,通过系统性评估不同组件在RAG流程中的影响,提出BERGEN,一个用于标准化可复现研究的端到端库,对问答问题进行广泛的研究,并评估不同的检索器、排序器和生成模型,同时分析现有的RAG度量和数据集。
Jul, 2024
大型语言模型和检索增强生成技术在各个领域取得巨大成功,但仍存在幻觉问题、知识更新问题和缺乏领域专长等关键问题。本文回顾了检索增强生成技术的显著技术,特别是在检索器和检索融合方面,并提供了教程代码以实现这些代表性技术。此外,本文讨论了检索增强生成技术的训练方法和应用,并探讨了其未来发展方向和挑战。
Jul, 2024
本研究解决了检索增强生成(RAG)系统实现中的复杂性问题,提出了RAG Foundry这一开源框架,使得数据创建、训练、推理和评估结合成一个工作流程。研究表明,通过该框架对Llama-3和Phi-3模型进行增强和微调,可以在三个知识密集型数据集上实现持续的性能提升。
Aug, 2024
本研究解决了检索增强生成(RAG)技术中对新算法缺乏全面公平比较以及现有开源工具透明度不足的问题。通过介绍RAGLAB,一个模块化的开源库,研究者可在10个基准上公平比较6种RAG算法,从而推动新算法和评估指标的发展。该框架的建立有望提升RAG方法的研究效率和成果。
Aug, 2024