RAGCache: 检索增强生成的高效知识缓存

Apr, 2024

RAGCache: 检索增强生成的高效知识缓存

RAGCache: Efficient Knowledge Caching for Retrieval-Augmented Generation

Chao Jin, Zili Zhang, Xuanlin Jiang, Fangyue Liu, Xin Liu...

TL;DR通过集成大型语言模型（LLM）和外部知识数据库，检索增强生成（RAG）在各种自然语言处理任务中展现了显著的改进。然而，RAG 引入了长序列生成，导致了高计算和内存成本。我们提出了一种针对 RAG 量身定制的新型多级动态缓存系统 Thoth，通过组织检索的知识的中间状态，并在 GPU 和主机内存层次结构中缓存它们，以减少时间和资源成本。

Abstract

retrieval-augmented generation (rag) has shown significant improvements in various natural language processing tasks by integrating the strengths of large language models (LLMs) and external knowledge databases.

retrieval-augmented generation rag thoth caching system llm inference

发现论文，激发创造

大语言模型的检索增强生成：综述

大型语言模型（LLMs）在实际应用中仍面临幻觉、知识更新缓慢和答案透明度不足等挑战。检索增强生成（RAG）是指在 LLMs 回答问题之前从外部知识库中检索相关信息。该论文概述了 LLMs 时代 RAG 的发展范式，总结了三种范式：Naive RAG，Advanced RAG 和 Modular RAG。同时，它提供了 RAG 的三个主要组成部分：检索器、生成器和增强方法的摘要和组织，以及每个组件的关键技术。此外，论文讨论了如何评估 RAG 模型的有效性，并介绍了两种 RAG 的评估方法、重点指标和能力，以及最新的自动评估框架。最后，从垂直优化、水平可扩展性和 RAG 的技术堆栈和生态系统三个方面引入了潜在的未来研究方向。

Dec, 2023

RAG 编年史：检索器、切片器与生成器

这篇论文提出了一种在巴西葡萄牙语中实施、优化和评估 RAG 模型的最佳实践，并建立了一个简单的推理和实验流程，通过对第一本《哈利・波特》书中的问题进行回答，提出了一种有效集成检索模型、高效的表示学习和多样化数据等挑战的解决方案，并在检索者的质量上实现了 MRR@10 相对基准改进 35.4%，在应用中优化输入大小后观察到进一步提升 2.4% 的结果，最终展示了 RAG 的完整架构和推荐。

Jan, 2024

通过自学使大型语言模型能够建立知识检索索引器

该研究提出了一种名为 PG-RAG 的预检索框架，使用大量阅读材料和结构化的语境记录来构建伪图数据库，该框架在单文档和多文档的问题回答任务中表现出明显的改进，具有高性能的检索和生成能力。

May, 2024

检索增强生成系统：自动数据集创建、评估和布尔代理设置

检索增强生成（RAG）系统在通过领域特定和时间敏感数据增强大型语言模型（LLM）输出方面非常受欢迎。本文提出了一种严格的数据集创建和评估工作流程，从而定量比较了不同的 RAG 策略，用于布尔代理 RAG 设置的开发和评估。我们在线发布了我们的代码和生成的数据集。

Feb, 2024

ActiveRAG: 透过主动学习揭示知识的宝藏

ActiveRAG 是一种创新的 RAG 框架，它通过使用知识构建机制和认知纽带机制将被动知识获取转变为主动学习机制，从而提高了大型语言模型的内在认知，并在问答数据集上取得了 5% 的改进。

Feb, 2024

KG-RAG: 知识与创造之间的桥梁

该论文介绍了一种名为 KG-RAG（知识图谱 - 检索增强生成）的框架，通过将结构化的知识图谱与 LLMs 的功能集成，显著减少对 LLMs 潜在知识的依赖，从而提高 LLM 的知识能力。通过使用一种名为 CoE（Chain of Explorations）的算法，利用 LLMs 的推理能力在知识图谱中顺序地探索节点和关系，该方法较之前取得了显著减少虚构内容的结果，为发展处理知识密集型任务的智能系统提供了有希望的路径。

May, 2024

通过稀疏上下文选择加速检索辅助生成的推理

通过引入稀疏技术，Sparse RAG 提出了一种新颖的范式，在提高生成质量的同时减少计算成本，通过并行编码检索文档并选择性地解码输出，既降低了延迟，又提升了模型的焦点和生成质量。

May, 2024

PipeRAG: 通过算法系统协同进行快速检索增强生成

通过引入 PipeRAG 算法，结合管道并行处理、灵活的检索间隔和性能模型自动平衡检索质量和延迟，可以在减少生成延迟的同时提高生成质量，为未来的 RAG 系统的采用铺平了道路。

Mar, 2024

RQ-RAG: 学习改进用于检索增强生成的查询

学习改进查询以实现检索增强生成，通过加入外部相关文档，使模型具备显式重写、分解和消歧的能力，并在各种问题回答数据集中取得了优于现有方法的表现。

Mar, 2024

ARAGOG：高级 RAG 输出评分

整合外部知识到大型语言模型输出，文献调研主要集中于最新方法与之前方法的比较，缺乏广泛的实验比较。本研究通过评估不同检索增强生成方法对检索精度和答案相似性的影响来填补这一空白。研究发现，Hypothetical Document Embedding (HyDE) 和大型语言模型重排能显著提高检索精度。然而，Maximal Marginal Relevance (MMR) 和 Cohere 重排在基线 Naive RAG 系统上没有明显优势，而 Multi-query 方法表现不佳。句窗检索为最有效的检索精度方法，尽管在答案相似性上表现不稳定。研究证实文件摘要索引作为一种有效的检索方法。欢迎学术界进一步探索 RAG 系统的研究，相关资源可通过我们的 GitHub 资源库 ARAGOG 进行进一步调查。

Apr, 2024