基于 RAG 的多源检索问答框架

May, 2024

A Multi-Source Retrieval Question Answering Framework Based on RAG

Ridong Wu, Shuhong Chen, Xiangbiao Su, Yuankai Zhu, Yifei Liao...

TL;DR基于 GPT-3.5 的多源检索框架（MSRAG）实现了检索增强生成技术（RAG）的改进，提高了问答系统的效率和准确性。

Abstract

With the rapid development of large-scale language models, retrieval-augmented generation (RAG) has been widely adopted. However, existing RAG paradigms are inevitably influenced by erroneous retrieval information

retrieval-augmented generation retrieval information gpt-3.5 semantic partitioning multi-source retrieval framework

发现论文，激发创造

大语言模型的检索增强生成：综述

大型语言模型（LLMs）在实际应用中仍面临幻觉、知识更新缓慢和答案透明度不足等挑战。检索增强生成（RAG）是指在 LLMs 回答问题之前从外部知识库中检索相关信息。该论文概述了 LLMs 时代 RAG 的发展范式，总结了三种范式：Naive RAG，Advanced RAG 和 Modular RAG。同时，它提供了 RAG 的三个主要组成部分：检索器、生成器和增强方法的摘要和组织，以及每个组件的关键技术。此外，论文讨论了如何评估 RAG 模型的有效性，并介绍了两种 RAG 的评估方法、重点指标和能力，以及最新的自动评估框架。最后，从垂直优化、水平可扩展性和 RAG 的技术堆栈和生态系统三个方面引入了潜在的未来研究方向。

Dec, 2023

大型语言模型的检索增强文本生成综述

Retrieval-Augmented Generation (RAG) 是一种合并检索方法和深度学习技术的方法，旨在通过动态整合最新的外部信息解决大型语言模型（LLMs）的静态限制，并通过使用真实世界的数据提供一种成本效益的解决方案来改进 LLMs 输出的准确性和可靠性。该研究将 RAG 范式分为四个类别，并从检索的角度提供了详细的视角，同时介绍了 RAG 的演进和领域的进展。此外，该论文还提出了针对 RAG 的评估方法，并提出了面临的挑战和未来的研究方向，旨在巩固现有的 RAG 研究，明确其技术基础，并突出其扩展 LLMs 的适应性和应用潜力。

Apr, 2024

在检索增强生成中寻找最佳实践

通过研究现有的 RAG 方法及其潜在组合，我们提出了几种既能兼顾性能又能提高效率的 RAG 策略，并证明多模态检索技术能显著增强对视觉输入的问答能力，并使用 “检索即生成” 策略加速多模态内容的生成。

Jul, 2024

检索增强生成模型评估：一项调查

Retrieval-Augmented Generation (RAG) 系统的评估和分析框架（RGAR）提供了一种基于可测输出和已建立真实性来系统分析 RAG 系统基准的方法，并讨论了当前基准的局限性和进一步研究的潜在方向。

May, 2024

医学领域检索增强生成的基准测试

通过在医学问答数据集上的大规模实验，我们提出了一种基于检索增强生成的评估框架 MIRAGE，以改善大型语言模型在医学领域中的表现，并通过引入 MedRAG 工具包提高了六个不同语言模型的准确性，最高可达到 18%，将 GPT-3.5 和 Mixtral 的性能提升至 GPT-4 级别。

Feb, 2024

DuetRAG: 协作检索增强生成

提出了一种新颖的 “Collaborative Retrieval-Augmented Generation” 框架 DuetRAG，以同时整合领域微调和 RAG 模型，提高知识检索质量，从而提高生成质量。最后，在 HotPot QA 上展示了 DuetRAG 与专业人类研究人员的匹配。

May, 2024

R^2AG: 将检索信息融入检索增强生成

本文提出了一种新的增强型 RAG 框架 R^2AG，通过将检索信息整合到检索增强型生成模型中，从而填补了大语言模型（LLMs）和检索器之间的语义鸿沟。

Jun, 2024

RichRAG：在检索增强生成中为多方面查询创建丰富的回复

为了解决用户在发出宽泛、开放式的查询时得到丰富的、多方面的回复的问题，我们提出了一种新颖的检索增强生成框架 ——RichRAG。该框架包括一个子方面探索器，用于识别问题中的潜在子方面；一个多方面检索器，用于构建与这些子方面相关的多样化外部文档的候选池；以及一个生成型列表排序器，它是为最终生成器提供前 k 个最有价值的文档的关键模块。经过实验证明，我们的框架能够有效、高效地为用户提供全面且满意的回复。

Jun, 2024

通过自学使大型语言模型能够建立知识检索索引器

该研究提出了一种名为 PG-RAG 的预检索框架，使用大量阅读材料和结构化的语境记录来构建伪图数据库，该框架在单文档和多文档的问题回答任务中表现出明显的改进，具有高性能的检索和生成能力。

May, 2024

混合 RAG：通过语义搜索和混合基于查询的检索器提高 RAG（召回增强生成）的准确性

基于 Retrieval-Augmented Generation (RAG) 方法，结合语义搜索技术，如稠密向量索引和稀疏编码器索引，以及混合查询策略，我们提出了 ' 混合 RAG' 方法。通过在 IR 数据集和 Generative Q&A 数据集上取得更好的检索结果并创造新的基准，我们进一步将这种 ' 混合 Retriever' 扩展到 RAG 系统，甚至超过 fine-tuning 性能。

Mar, 2024