纠错检索增强生成

Jan, 2024

Corrective Retrieval Augmented Generation

Shi-Qi Yan, Jia-Chen Gu, Yun Zhu, Zhen-Hua Ling

TL;DR大语言模型（LLMs）不可避免地产生幻觉，因为仅依靠它们所封装的参数知识无法确保生成的文本的准确性。为了改善生成的鲁棒性，我们提出了纠正检索增强生成（CRAG）。通过设计轻量级的检索评估模型来评估检索文档的整体质量，并基于此返回信心度，从而触发不同的知识检索操作。此外，利用大规模网络搜索扩展检索结果。通过分解和重组算法，选择性关注关键信息并过滤掉不相关信息。CRAG 与各种基于 RAG 的方法可以无缝连接。在涵盖短文和长文生成任务的四个数据集上的实验表明，CRAG 可以显著提高基于 RAG 的方法的性能。

Abstract

large language models (LLMs) inevitably exhibit hallucinations since the accuracy of generated texts cannot be secured solely by the parametric knowledge they encapsulate. Although →

large language models hallucinations retrieval-augmented generation corrective retrieval augmented generation performance improvement

发现论文，激发创造

聚类检索增强生成（CRAG）

提供外部知识给大规模语言模型是实际应用中的关键点之一，为了融入实时的内容、提供特定领域知识以及预防生成虚构内容。通过数据库向量检索增强生成（RAG）方法已经被广泛采用，然而在某些应用中，使用 RAG 方法可能不可行，因为所检索的上下文可能需要比 LLM 支持的上下文窗口更长。为了解决这个问题，我们提出了一种名为 CRAG 的新方法，能够有效减少提示词数量，而不会降低生成的响应质量与使用 RAG 的解决方案相比。通过实验证明，与 RAG 相比，CRAG 方法可以至少减少 46% 的词数量，在某些情况下甚至能达到 90% 以上。此外，与 RAG 相比，CRAG 的词数在分析评论数增加时不会显著增加，当评论数从 4 个增加到 75 个时，RAG 的词数几乎增加了 9 倍。

May, 2024

大语言模型的检索增强生成：综述

大型语言模型（LLMs）在实际应用中仍面临幻觉、知识更新缓慢和答案透明度不足等挑战。检索增强生成（RAG）是指在 LLMs 回答问题之前从外部知识库中检索相关信息。该论文概述了 LLMs 时代 RAG 的发展范式，总结了三种范式：Naive RAG，Advanced RAG 和 Modular RAG。同时，它提供了 RAG 的三个主要组成部分：检索器、生成器和增强方法的摘要和组织，以及每个组件的关键技术。此外，论文讨论了如何评估 RAG 模型的有效性，并介绍了两种 RAG 的评估方法、重点指标和能力，以及最新的自动评估框架。最后，从垂直优化、水平可扩展性和 RAG 的技术堆栈和生态系统三个方面引入了潜在的未来研究方向。

Dec, 2023

大型语言模型的检索增强文本生成综述

Retrieval-Augmented Generation (RAG) 是一种合并检索方法和深度学习技术的方法，旨在通过动态整合最新的外部信息解决大型语言模型（LLMs）的静态限制，并通过使用真实世界的数据提供一种成本效益的解决方案来改进 LLMs 输出的准确性和可靠性。该研究将 RAG 范式分为四个类别，并从检索的角度提供了详细的视角，同时介绍了 RAG 的演进和领域的进展。此外，该论文还提出了针对 RAG 的评估方法，并提出了面临的挑战和未来的研究方向，旨在巩固现有的 RAG 研究，明确其技术基础，并突出其扩展 LLMs 的适应性和应用潜力。

Apr, 2024

基于检索增强生成的大型语言模型的基准测试

通过对 Retrieval-Augmented Generation 对大型语言模型的影响进行系统调查和评估，本文发现大型语言模型在噪音鲁棒性、负面拒绝、信息整合和对抗性鲁棒性方面存在挑战，表明在将 RAG 有效应用于大型语言模型方面仍有很长的路要走。

Sep, 2023

C-RAG: 检索扩展语言模型的认证生成风险

本研究提出了 C-RAG 框架，旨在为 RAG 模型证明世代风险。具体地，我们为 RAG 模型提供了符合风险分析，并认证了世代风险的上界置信度称为符合世代风险。我们还对测试分布转移下的一般有界风险函数的符合世代风险提供了理论保证。当检索模型和变换器的质量非平凡时，我们证明了 RAG 模型实现了比单个 LLM 更低的符合世代风险。通过对四个广泛使用的自然语言处理数据集在四个最先进的检索模型上进行的强化实证结果表明了我们符合尾世代风险保证的可靠性和紧密性。

Feb, 2024

RQ-RAG: 学习改进用于检索增强生成的查询

学习改进查询以实现检索增强生成，通过加入外部相关文档，使模型具备显式重写、分解和消歧的能力，并在各种问题回答数据集中取得了优于现有方法的表现。

Mar, 2024

检索增强生成模型评估：一项调查

Retrieval-Augmented Generation (RAG) 系统的评估和分析框架（RGAR）提供了一种基于可测输出和已建立真实性来系统分析 RAG 系统基准的方法，并讨论了当前基准的局限性和进一步研究的潜在方向。

May, 2024

自我反思：学习通过检索、生成和评论

通过检索和自我反思，Self-RAG 框架提高了语言模型的质量和准确性，在多样任务中显著优于其他模型。

Oct, 2023

DR-RAG: 将动态文档相关性应用于检索增强问答生成

通过将外部知识库融入到 Retrieval-Augmented Generation (RAG) 中，提出了一种名为 Dynamic-Relevant Retrieval-Augmented Generation （DR-RAG）的两阶段检索框架，用于改善文档检索的召回率和答案的准确性，同时保持高效性，通过对检索到的文档的贡献进行分类确定相对相关的文档，实验证明 DR-RAG 能显著提高答案的准确性，并在 QA 系统方面取得新的进展。

Jun, 2024

医学领域检索增强生成的基准测试

通过在医学问答数据集上的大规模实验，我们提出了一种基于检索增强生成的评估框架 MIRAGE，以改善大型语言模型在医学领域中的表现，并通过引入 MedRAG 工具包提高了六个不同语言模型的准确性，最高可达到 18%，将 GPT-3.5 和 Mixtral 的性能提升至 GPT-4 级别。

Feb, 2024