RAGLAB:一个模块化和面向研究的检索增强生成统一框架
大型语言模型(LLMs)在实际应用中仍面临幻觉、知识更新缓慢和答案透明度不足等挑战。检索增强生成(RAG)是指在LLMs回答问题之前从外部知识库中检索相关信息。该论文概述了LLMs时代RAG的发展范式,总结了三种范式:Naive RAG,Advanced RAG和Modular RAG。同时,它提供了RAG的三个主要组成部分:检索器、生成器和增强方法的摘要和组织,以及每个组件的关键技术。此外,论文讨论了如何评估RAG模型的有效性,并介绍了两种RAG的评估方法、重点指标和能力,以及最新的自动评估框架。最后,从垂直优化、水平可扩展性和RAG的技术堆栈和生态系统三个方面引入了潜在的未来研究方向。
Dec, 2023
利用统一多源检索增强生成系统UniMS-RAG,综合三个子任务:知识源选择、知识检索和回复生成,通过训练在序列到序列模型中自适应地检索证据和评估相关性,实现了个性化回复生成,并在两个个性化数据集上展示了其最新的性能。
Jan, 2024
我们开发了一个新的数据集MultiHop-RAG,它由知识库、大量的多跳查询、它们的真实答案和相应的支持证据组成,并详细介绍了构建数据集的过程。我们进行了两个实验来展示MultiHop-RAG的基准化效用,实验结果表明现有的RAG方法在检索和回答多跳查询上表现不尽人意。我们希望MultiHop-RAG能成为开发有效的RAG系统的有价值资源,从而促进LLMs在实践中的更广泛应用。
Jan, 2024
Retrieval-Augmented Generation (RAG)是一种合并检索方法和深度学习技术的方法,旨在通过动态整合最新的外部信息解决大型语言模型(LLMs)的静态限制,并通过使用真实世界的数据提供一种成本效益的解决方案来改进LLMs输出的准确性和可靠性。该研究将RAG范式分为四个类别,并从检索的角度提供了详细的视角,同时介绍了RAG的演进和领域的进展。此外,该论文还提出了针对RAG的评估方法,并提出了面临的挑战和未来的研究方向,旨在巩固现有的RAG研究,明确其技术基础,并突出其扩展LLMs的适应性和应用潜力。
Apr, 2024
检视了检索增强型大型语言模型(RA-LLMs)的现有研究,涵盖体系结构、训练策略和应用三个主要技术视角,并介绍了此类模型的基础知识和最新进展,以及它们为大型语言模型(LLMs)带来的实际意义和应用领域的挑战和能力,最后讨论了当前的局限性和未来研究的几个有前途的方向。
May, 2024
通过集成IR系统与LLMs来支持多轮RAG,提出了一种新的LLM中心方法IM-RAG,优化通过强化学习和监督微调,实现在HotPotQA数据集上达到最先进性能的同时提供高度可灵活性的IR模块集成和学习的内部独白解释性。
May, 2024
检验Retrieval-Augmented Generation (RAG)在特定领域环境中的能力与效果,评估存在的限制并寻求改进的研究。
Jun, 2024
RAGBench是首个包含10万个有标签RAG系统实例的综合型大规模评估基准数据集,覆盖了五个独特的行业特定领域和各种RAG任务类型,并引入了可解释和可操作的RAG评估指标集TRACe。
Jun, 2024
大型语言模型和检索增强生成技术在各个领域取得巨大成功,但仍存在幻觉问题、知识更新问题和缺乏领域专长等关键问题。本文回顾了检索增强生成技术的显著技术,特别是在检索器和检索融合方面,并提供了教程代码以实现这些代表性技术。此外,本文讨论了检索增强生成技术的训练方法和应用,并探讨了其未来发展方向和挑战。
Jul, 2024