弥合检索模型与语言模型之间的偏好差距

Jan, 2024

弥合检索模型与语言模型之间的偏好差距

Bridging the Preference Gap between Retrievers and LLMs

Zixuan Ke, Weize Kong, Cheng Li, Mingyang Zhang, Qiaozhu Mei...

TL;DR我们提出了一个新的桥接模型，并验证了 RAG 中检索器的排序和选择假设，并提出了一个将监督学习和强化学习连接起来的培训框架，在问答和个性化生成任务中证明了我们方法的有效性。

Abstract

large language models (LLMs) have demonstrated superior results across a wide range of tasks, while retrieval has long been established as an effective means of obtaining task-relevant information for humans. Retrieval-augmented Generation (RAG) are known for their effectiveness in kno

large language models retrieval-augmented generation retrievers bridge model supervised and reinforcement learning

发现论文，激发创造

关于 RAG 遇见 LLM 的调研：走向检索增强的大型语言模型

检视了检索增强型大型语言模型（RA-LLMs）的现有研究，涵盖体系结构、训练策略和应用三个主要技术视角，并介绍了此类模型的基础知识和最新进展，以及它们为大型语言模型（LLMs）带来的实际意义和应用领域的挑战和能力，最后讨论了当前的局限性和未来研究的几个有前途的方向。

May, 2024

基于图的检索器捕捉生物医学知识的长尾

通过利用知识图谱缓解信息过载问题，本研究提出了一种新的信息检索方法，其检索性能在精确度和召回率两方面约为嵌入相似性方法的两倍，并且证明了嵌入相似性和知识图谱检索方法可以有益地结合成一个混合模型，优于两者，从而能够对生物医学问答模型进行潜在改进。

Feb, 2024

噪声的力量：为 RAG 系统重新定义检索

通过详细和批判性地分析信息检索组件对检索辅助生成系统的影响，本研究揭示了特定类型的文档对于有效的检索辅助生成提示公式所需的特征，发现包括不相关的文档能出乎意料地提高准确性超过 30％。这些结果强调了需要开发专门策略来将检索与语言生成模型相结合，为未来研究奠定了基础。

Jan, 2024

大语言模型的检索增强生成：综述

大型语言模型（LLMs）在实际应用中仍面临幻觉、知识更新缓慢和答案透明度不足等挑战。检索增强生成（RAG）是指在 LLMs 回答问题之前从外部知识库中检索相关信息。该论文概述了 LLMs 时代 RAG 的发展范式，总结了三种范式：Naive RAG，Advanced RAG 和 Modular RAG。同时，它提供了 RAG 的三个主要组成部分：检索器、生成器和增强方法的摘要和组织，以及每个组件的关键技术。此外，论文讨论了如何评估 RAG 模型的有效性，并介绍了两种 RAG 的评估方法、重点指标和能力，以及最新的自动评估框架。最后，从垂直优化、水平可扩展性和 RAG 的技术堆栈和生态系统三个方面引入了潜在的未来研究方向。

Dec, 2023

LLMs 知道他们所需：利用缺失信息导向框架强化检索辅助生成

通过实验证明语言模型具有提取信息和判断缺失信息的能力，基于此发现，本文提出了一种 Missing Information Guided Retrieve-Extraction-Solving（MIGRES）范式，利用缺失信息的识别生成有针对性的查询来引导后续的知识检索，同时设计了一种基于句子级别的重新排序过滤方法，以过滤掉无关的内容，并结合语言模型的信息提取能力从干净的文档中提取有用信息，从而增强 Retrieval-Augmented Generation（RAG）的整体效力。大量实验证明了所提出的 MIGRES 方法的优越性，并分析实验证明了我们提出的模块的有效性。

Apr, 2024

面向知识密集任务的统一语言模型：利用外部语料库

该研究论文介绍了一种统一的语言模型，通过将生成检索、闭书生成和 RAG 有机地结合，利用外部语料库处理各种知识密集型任务。该模型通过引入不同机制实现了有效的检索和生成，并在广泛使用的 KILT 基准测试中展现了出色的性能。

Feb, 2024

大型语言模型的检索增强文本生成综述

Retrieval-Augmented Generation (RAG) 是一种合并检索方法和深度学习技术的方法，旨在通过动态整合最新的外部信息解决大型语言模型（LLMs）的静态限制，并通过使用真实世界的数据提供一种成本效益的解决方案来改进 LLMs 输出的准确性和可靠性。该研究将 RAG 范式分为四个类别，并从检索的角度提供了详细的视角，同时介绍了 RAG 的演进和领域的进展。此外，该论文还提出了针对 RAG 的评估方法，并提出了面临的挑战和未来的研究方向，旨在巩固现有的 RAG 研究，明确其技术基础，并突出其扩展 LLMs 的适应性和应用潜力。

Apr, 2024

基于 LLM 的问答系统中检索组件的评估

评估大规模语言模型在问答系统中的检索组件性能的基线方法。

Jun, 2024

大型语言模型中的检索增强生成的开发与测试 -- 一份案例研究报告

大型语言模型（LLMs）在医疗应用中具有重要潜力，而检索增强生成（RAG）被认为是一种有前景的方法来定制 LLMs 中的领域知识。该研究通过开发和评估一个专门针对医疗保健领域、特别关注术前医学的 LLM-RAG 流程，验证了其可行性。

Jan, 2024

基于检索增强生成的大型语言模型的基准测试

通过对 Retrieval-Augmented Generation 对大型语言模型的影响进行系统调查和评估，本文发现大型语言模型在噪音鲁棒性、负面拒绝、信息整合和对抗性鲁棒性方面存在挑战，表明在将 RAG 有效应用于大型语言模型方面仍有很长的路要走。

Sep, 2023