从数十万亿的标记中检索以提高语言模型

Dec, 2021

从数十万亿的标记中检索以提高语言模型

Improving language models by retrieving from trillions of tokens

Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford...

TL;DR通过从大型语料库中检索与前面 token 相似的文档块来改善自回归语言模型的条件，并创建 Retrieval-Enhanced Transformer（RETRO），该模型在 Pile 数据集上的表现与 GPT-3 和 Jurassic-1 相当。 RETRO 结合一个冻结的 Bert 检索器，一个可微分的编码器和一个分块交叉关注机制，可以基于比通常在训练期间消耗的数据量高一个数量级的数据预测 token，并在 fine-tuning 后转化为下游的 knowledge-intensive 任务，例如问答等，这一研究为利用显式记忆来提高语言模型的性能开辟了新的途径。

Abstract

We enhance auto-regressive language models by conditioning on document chunks retrieved from a large corpus, based on local similarity with preceding tokens. With a $2$ trillion token database, our retrieval-enhanced tr

auto-regressive language models retrieval-enhanced transformer bert retriever question answering explicit memory

发现论文，激发创造

关于检索增强的 Transformer 的泛化能力

该研究探讨了 Retrieval-Enhanced Transformer（RETRO）模型的性能以及性能提升的原因，发现检索数据库可显著提高语言建模的效果，但其性能提升主要来自于测试数据与数据库的重叠标记。该研究还指出，检索增强的语言模型对于其泛化能力的评估存在一定挑战，即使是有限的标记重叠也可能显著降低测试损失。

Feb, 2023

我们是否应该使用检索方法预训练自回归语言模型？一项全面研究

通过引入检索机制可以提高大型解码器语言模型的困惑度和生成质量，本文提出了一种可扩展的预训练检索增强语言模型，它在实验证明了在知识密集型任务上优于标准 GPT，未来这可能是预训练自回归 LM 的有前途的方向。

Apr, 2023

自检索的长距离语言建模

本文中，我们提出了一种用于从头开始联合训练检索增强语言模型的架构和训练流程，名为 Retrieval-Pretrained Transformer（RPT），并使用四个长程语言建模任务进行了评估，横跨图书、代码和数学写作，证明了与强基线相比，RPT 改善了整体的检索质量和困惑度。

Jun, 2023

InstructRetro: 检索增强预训练后的指令调整

通过检索进行预先训练的大型语言模型在困惑度和事实准确性方面表现更好，但现有预先训练的检索增强语言模型的规模仍然受限，因此限制了指导调整和零样本泛化的效果。我们提出了 Retro 48B，这是在指导调整之前预先训练的最大语言模型，通过从 1.2 万亿令牌中检索继续对 43B GPT 模型进行额外的 1000 亿令牌的预训练。Retro 48B 在困惑度方面在很大程度上优于原始的 43B GPT。在 Retro 上进行指导调整后，InstructRetro 在零样本问答任务上明显优于指导调整的 GPT。此外，我们发现可以剔除 InstructRetro 架构中的编码器，直接使用其解码器骨干，同时获得可比较的结果。预先训练与检索使其解码器在问答中更好地融入上下文，为获取更好的 GPT 解码器指明了有希望的方向。

Oct, 2023

使用检索增强语言模型提高 GPT-3/4 在生物医学数据上的准确性

本文研究了大型语言模型在特定领域中的性能，比较了多种模型回答 DLBCL 疾病的问题，发现 RetA 模型在准确性和相关性方面表现最好。

May, 2023

端到端 ASR 适应的即时文本检索

本文提出一种在已有的 ASR 模型中添加检索语言模型，以直接从外部文本语料库中检索可能的完成语来改善模型性能，并使用适配器将这些完成语集成到后续的预测中，避免了重新训练的计算开销。该模型在问答数据集和特定领域命名实体识别等任务上表现均优于现有的浅层融合方法。

Mar, 2023

BRENT: 双向检索增强挪威变压器

利用 REALM 框架进行适应性评估，开发了第一个挪威基于检索的语言模型，证明了检索增强语言建模可提高读者在摘要问答上的表现，并表明这种类型的训练不会以其他功能为代价。

Apr, 2023

TCRA-LLM：基于令牌压缩检索的大规模语言模型，用于推理成本降低

使用自学生成的样本进行 Fine-tune，我们提出了两种方法进行文本压缩：摘要压缩和语义压缩。摘要压缩可以减少 65% 的检索令牌大小并提高 0.3% 的准确性，语义压缩可以将令牌大小减少 20%，但只有 1.6% 的准确性损失。

Oct, 2023

RAPTOR: 递归抽象处理树形检索

使用递归嵌入、递归摘要等方法的召回增强型语言模型可以在问题回答任务中取得卓越的结果，并在整体文档上具有整体的理解能力。

Jan, 2024

使用预训练转换器的连续主动学习

研究探讨使用基于 transformer 的模型如何提升高召回率信息检索的搜索性能，提出了可基于相关反馈进行持续 fine-tune 的 CALBERT 模型。

Aug, 2022