基于数据的检索增强模型的统计框架

Aug, 2024

基于数据的检索增强模型的统计框架

A Statistical Framework for Data-dependent Retrieval-Augmented Models

Soumya Basu, Ankit Singh Rawat, Manzil Zaheer

TL;DR本研究针对检索增强模型理解不足的问题，提出了一个统计框架，包含检索器和预测器两个关键组件，来提升最终预测的准确性。研究的主要发现是，提出的训练方法和统计分析在开放领域问答任务中显示了显著的效果，阐明了检索器和预测器对模型性能的重要贡献。

Abstract

Modern ML systems increasingly augment input instances with additional relevant information to enhance final prediction. Despite growing interest in such Retrieval-Augmented Models, their fundamental properties and training are not well understood. We propose a →

发现论文，激发创造

基于嵌入式大规模检索的预训练任务

本文研究基于嵌入的检索模型，并探究对段落级别的预训练任务在训练强大的嵌入式Transformer模型上的关键作用。

Feb, 2020

开放域问答的多文档阅读器和检索器的端到端训练

提出了一种针对获取增强型开放领域问答系统的端到端可区分训练方法，它结合多个已检索文件的信息来生成答案，通过期望最大化算法的近似计算来建模检索决策，证明了该方法优于现有同类方法，达到了新的最高水平。

Jun, 2021

把检索视为注意力：单个 Transformer 内检索和阅读的端到端学习

通过使用Retrieval as Attention (ReAtt)和Transformer，我们的研究表明，通过端到端的培训，单个模型可以同时实现有竞争力的提取和问答表现，在监督和无监督的设置中显著提高其在超领域数据集上的性能。

Dec, 2022

BRENT: 双向检索增强挪威变压器

利用REALM框架进行适应性评估，开发了第一个挪威基于检索的语言模型，证明了检索增强语言建模可提高读者在摘要问答上的表现，并表明这种类型的训练不会以其他功能为代价。

Apr, 2023

通过数据重要性学习改进检索增强的大型语言模型

通过修剪或重新权重检索语料库，可以提高大型语言模型的性能，无需进行进一步训练。在某些任务中，甚至允许较小的模型（例如GPT-JT）通过搜索引擎API进行扩展，胜过未使用检索增强的GPT-3.5。此外，我们展示了在实践中可以高效地计算基于多线性扩展的权重（例如，对于包含1亿个元素的语料库，计算时间少于十分钟）

Jul, 2023

提升检索增强语言模型对无关背景的鲁棒性

使用检索增强语言模型 (Retrieval-augmented language models, RALMs) 在处理特定应用场景问题时，检索到的信息能够提高模型的性能，并且不会损害性能。该研究分析了五个开放领域问答基准，并提出了两种方法以减轻性能下降问题。

Oct, 2023

可靠、适应性强、可归因的检索式语言模型

通过在推理过程中引入大规模数据存储，检索增强的语言模型（retrieval-augmented LMs）可以更可靠、适应性更强且更具可追溯性，然而目前在超越知识密集型任务（如问答）以外的领域，检索增强的语言模型尚未被广泛采用，这需要重新考虑数据存储和检索器、改进检索器和语言模型组件之间的交互以及在高效训练和推理方面进行大规模投资。

Mar, 2024

LLM-Augmented Retrieval: 借助语言模型和文档级嵌入增强检索模型

该研究论文介绍了一种基于模型无关的文档级嵌入框架，通过大型语言模型（LLM）增强，改进了检索模型训练过程中的一些重要组件，如负采样、损失函数等。通过实现这个LLM增强的检索框架，我们显著提高了广泛使用的检索模型（如Bi-encoders和late-interaction models）的效果，并在LoTTE数据集和BEIR数据集上取得了最新的研究成果。

Apr, 2024

揭示和缓解检索增强的大规模语言模型中的检索器不一致性

综合检索增强的大型语言模型，在研究表明事实性方面较优越，但并不始终优于原始的无检索语言模型。我们的实验揭示了这种例级性能不一致不仅存在于检索增强和无检索语言模型之间，而且在不同的检索器之间也存在。为了理解这一现象，我们对综合检索增强的大型语言模型进行了退化行为研究，并在理论上将其分解为四个类别。根据我们的分解进一步分析表明，知识源的固有差异和读者模型的不可预测的退化对这种不一致性起到了主要贡献。根据我们的分析，我们引入了可训练的综合检索器框架（EoR），该框架可以从不同的知识源自适应地检索，并且可以有效地减少不可预测的读者错误。我们在开放域问题回答方面的实验证明，EoR显著改善了单个检索器的RALM的性能，并大幅减少了不一致的行为。

May, 2024

提升检索的机器学习：综述和机遇

该研究介绍了一种形式化的检索增强机器学习（REML）范式，通过综合不同领域的机器学习文献，为研究人员提供了一个全面、形式化结构的检索增强模型框架，以促进跨学科的未来研究。

Jul, 2024