自检索的长距离语言建模

Jun, 2023

Long-range Language Modeling with Self-retrieval

Ohad Rubin, Jonathan Berant

TL;DR本文中，我们提出了一种用于从头开始联合训练检索增强语言模型的架构和训练流程，名为 Retrieval-Pretrained Transformer（RPT），并使用四个长程语言建模任务进行了评估，横跨图书、代码和数学写作，证明了与强基线相比，RPT 改善了整体的检索质量和困惑度。

Abstract

retrieval-augmented language models (LMs) have received much attention recently. However, typically the retriever is not trained jointly as a native component of the →

retrieval-augmented language models retrieval-pretrained transformer long-range language modeling lm retriever

发现论文，激发创造

我们是否应该使用检索方法预训练自回归语言模型？一项全面研究

通过引入检索机制可以提高大型解码器语言模型的困惑度和生成质量，本文提出了一种可扩展的预训练检索增强语言模型，它在实验证明了在知识密集型任务上优于标准 GPT，未来这可能是预训练自回归 LM 的有前途的方向。

Apr, 2023

可靠、适应性强、可归因的检索式语言模型

通过在推理过程中引入大规模数据存储，检索增强的语言模型（retrieval-augmented LMs）可以更可靠、适应性更强且更具可追溯性，然而目前在超越知识密集型任务（如问答）以外的领域，检索增强的语言模型尚未被广泛采用，这需要重新考虑数据存储和检索器、改进检索器和语言模型组件之间的交互以及在高效训练和推理方面进行大规模投资。

Mar, 2024

RAPTOR: 递归抽象处理树形检索

使用递归嵌入、递归摘要等方法的召回增强型语言模型可以在问题回答任务中取得卓越的结果，并在整体文档上具有整体的理解能力。

Jan, 2024

检索重构：大规模语言模型推理

本文提出了一种名为 'rethinking with retrieval' (RR) 的后置处理方法，借助 'chain-of-thought' (CoT) 提示中的分解推理步骤检索相关的外部知识，从而改善大语言模型在常识推理、时间推理和表格推理等方面的性能。

Dec, 2022

从数十万亿的标记中检索以提高语言模型

通过从大型语料库中检索与前面 token 相似的文档块来改善自回归语言模型的条件，并创建 Retrieval-Enhanced Transformer（RETRO），该模型在 Pile 数据集上的表现与 GPT-3 和 Jurassic-1 相当。 RETRO 结合一个冻结的 Bert 检索器，一个可微分的编码器和一个分块交叉关注机制，可以基于比通常在训练期间消耗的数据量高一个数量级的数据预测 token，并在 fine-tuning 后转化为下游的 knowledge-intensive 任务，例如问答等，这一研究为利用显式记忆来提高语言模型的性能开辟了新的途径。

Dec, 2021

通过大型语言模型重定义结构化数据库的信息检索

本文介绍了一种名为 ChatLR 的新型检索增强框架，主要利用大型语言模型（LLMs）的强大语义理解能力作为检索器，以实现精确和简洁的信息检索。通过在金融领域微调 LLM 并构建基于 LLM 的搜索和问答系统，实验证明 ChatLR 在解决用户查询中表现出高达 98.8％的信息检索准确性。

May, 2024

REALM: 检索增强语言模型预训练

本文介绍了一种利用潜在知识检索器扩充语言模型预训练，并将其应用于开放域问答任务中，实现了良好的效果和可解释性。

Feb, 2020

个性化大型语言模型的优化方法：通过检索增强

本研究论文探讨了扩展的检索方法用于个性化大型语言模型，通过两种优化算法从下游任务获取反馈进行检索优化，并引入了一个预生成和后生成的检索模型来决定每个语言模型输入应选择哪个检索器。在多个任务中进行了大量实验，并获得了显著的统计结果。

Apr, 2024

检索增强大型语言模型的查询重写

该研究介绍了一个新的 Rewrite-Retrieve-Read 框架，该框架从查询重写的角度改进了检索增强方法，并通过强化学习调整该框架的策略模型，通过开放域 QA 等下游任务进行了验证。

May, 2023

通过基于检索的预训练弥合语言模型与机器阅读理解之间的鸿沟

使用自我监督的方法在预训练过程中引入两个任务强化证据提取，从而增强证据提取能力，以提高 Pre-trained Language Models 在机器阅读理解方面的表现。

May, 2021