xRAG：一令牌极其上下文压缩的检索增强生成

May, 2024

xRAG：一令牌极其上下文压缩的检索增强生成

xRAG: Extreme Context Compression for Retrieval-augmented Generation with One Token

Xin Cheng, Xun Wang, Xingxing Zhang, Tao Ge, Si-Qing Chen...

TL;DRxRAG 是一种针对检索增强生成的创新上下文压缩方法，通过模态融合的方法将文档嵌入重新解释为来自检索模态的特征，并在语言模型表示空间中无缝集成这些嵌入以实现极高的压缩率。实验证明，xRAG 在六个强调知识的任务中达到了平均改进 10% 以上，适用于各种语言模型主干结构，从密集 7B 模型到 8x7B 多专家结构。xRAG 不仅显著超越了以前的上下文压缩方法，而且在减少计算量（FLOPs）的同时，与未压缩模型在多个数据集上保持了相当的性能，为未来有效和可伸缩的检索增强系统奠定了基础。

Abstract

This paper introduces xrag, an innovative context compression method tailored for retrieval-augmented generation. →

xrag context compression retrieval-augmented generation modality fusion multimodality fusion

发现论文，激发创造

通过稀疏上下文选择加速检索辅助生成的推理

通过引入稀疏技术，Sparse RAG 提出了一种新颖的范式，在提高生成质量的同时减少计算成本，通过并行编码检索文档并选择性地解码输出，既降低了延迟，又提升了模型的焦点和生成质量。

May, 2024

聚类检索增强生成（CRAG）

提供外部知识给大规模语言模型是实际应用中的关键点之一，为了融入实时的内容、提供特定领域知识以及预防生成虚构内容。通过数据库向量检索增强生成（RAG）方法已经被广泛采用，然而在某些应用中，使用 RAG 方法可能不可行，因为所检索的上下文可能需要比 LLM 支持的上下文窗口更长。为了解决这个问题，我们提出了一种名为 CRAG 的新方法，能够有效减少提示词数量，而不会降低生成的响应质量与使用 RAG 的解决方案相比。通过实验证明，与 RAG 相比，CRAG 方法可以至少减少 46% 的词数量，在某些情况下甚至能达到 90% 以上。此外，与 RAG 相比，CRAG 的词数在分析评论数增加时不会显著增加，当评论数从 4 个增加到 75 个时，RAG 的词数几乎增加了 9 倍。

May, 2024

基于 AMR 概念蒸馏的长上下文压缩增强 RAG

通过引入 AMR 改进 RAG，提出了一个基于概念的 RAG 框架，并使用 AMR 基于概念提炼算法，将检索到的文档压缩成关键概念集，以过滤干扰信息，从而增强推理性能。

May, 2024

上下文调整以提升检索增强生成

利用上下文调整的检索增强生成模型可以通过智能上下文检索系统获取相关信息，从而提高工具检索和计划生成的准确性。其中，语义搜索在不完整或缺乏上下文的情况下容易失效。经验证明，上下文调整显著提高了语义搜索的性能，并且对于上下文检索和工具检索任务分别实现了 3.5 倍和 1.5 倍的提升，同时使基于 LLM 的计划生成的准确性增加了 11.6％。此外，在使用倒数排名融合（RRF）和 LambdaMART 的轻量级模型时，还观察到了计划生成阶段的上下文增强可以减少虚构现象。

Dec, 2023

iRAG：一种用于视频的增量检索增强生成系统

通过增量流程的方式，iRAG 提供对大规模、真实世界的多模态数据的高效交互式查询，比传统的 RAG 系统更快地将视频转换为文本，并确保与传统 RAG 相比，响应交互用户查询的质量相当。

Apr, 2024

多头 RAG: 使用 LLMs 解决多方面问题

通过利用 Transformer 的多头 attention 层的激活作为提取多方面文档的关键来提高文本生成模型的能力，使得 Multi-Head RAG 能够更准确地检索复杂查询，并通过实证评估显示在相关性方面相较于标准的 RAG 基准模型有着高达 20% 的改进。

Jun, 2024

大型语言模型的检索增强文本生成综述

Retrieval-Augmented Generation (RAG) 是一种合并检索方法和深度学习技术的方法，旨在通过动态整合最新的外部信息解决大型语言模型（LLMs）的静态限制，并通过使用真实世界的数据提供一种成本效益的解决方案来改进 LLMs 输出的准确性和可靠性。该研究将 RAG 范式分为四个类别，并从检索的角度提供了详细的视角，同时介绍了 RAG 的演进和领域的进展。此外，该论文还提出了针对 RAG 的评估方法，并提出了面临的挑战和未来的研究方向，旨在巩固现有的 RAG 研究，明确其技术基础，并突出其扩展 LLMs 的适应性和应用潜力。

Apr, 2024

RAGGED: 面向具备信息的检索增强生成系统的设计

检索增强生成（RAG）通过为文档问答等任务提供额外的上下文大大提升了语言模型（LMs）的能力。在研究框架 RAGGED 下，我们研究了代表性的文档问答任务，观察了两种经典的稀疏和密集检索器以及四种在编码器 - 解码器和仅解码器架构中表现优异的 LMs。研究结果显示，不同的模型适用于不同的 RAG 配置，而编码器 - 解码器模型在使用更多文档时呈现出单调改进，而仅解码器模型只能有效使用小于 5 个文档，尽管其上下文窗口通常更长。此外，RAGGED 还揭示了 LMs 的上下文利用习惯，其中编码器 - 解码器模型更依赖上下文，并且对于检索质量更为敏感，而仅解码器模型则更倾向于依赖训练中记忆的知识。

Mar, 2024

提高检索增强生成中的开放领域问答性能和可解释性的相关性评估器

提出了一种 RE-RAG 框架，通过将显式的上下文相关性估计器（RE）注入到 RAG 系统中，重新评估检索到的上下文，并将更相关的上下文与其重要性量度传递给生成器，从而在不使用标记的文档排名数据训练上下文相关性估计器的情况下，实现与 FiD 变体相当的性能，并改进了 NQ 和 TQA 的性能以及提高了 RE-RAG 的准确性。

Jun, 2024

不要忘记连接！使用基于图的再排序提升 RAG

G-RAG is a graph neural network-based reranker that combines connections between documents and semantic information to improve the performance of Large Language Model-based Retrieval Augmented Generation (RAG) systems.

May, 2024