关于检索增强的 Transformer 的泛化能力

Feb, 2023

关于检索增强的 Transformer 的泛化能力

On the Generalization Ability of Retrieval-Enhanced Transformers

Tobias Norlund, Ehsan Doostmohammadi, Richard Johansson, Marco Kuhlmann

TL;DR该研究探讨了 Retrieval-Enhanced Transformer（RETRO）模型的性能以及性能提升的原因，发现检索数据库可显著提高语言建模的效果，但其性能提升主要来自于测试数据与数据库的重叠标记。该研究还指出，检索增强的语言模型对于其泛化能力的评估存在一定挑战，即使是有限的标记重叠也可能显著降低测试损失。

Abstract

Recent work on the retrieval-enhanced transformer (RETRO) model has shown that off-loading memory from trainable weights to a retrieval database can significantly improve →

retrieval-enhanced transformer language modeling retrieval database generalization test-time loss

发现论文，激发创造

从数十万亿的标记中检索以提高语言模型

通过从大型语料库中检索与前面 token 相似的文档块来改善自回归语言模型的条件，并创建 Retrieval-Enhanced Transformer（RETRO），该模型在 Pile 数据集上的表现与 GPT-3 和 Jurassic-1 相当。 RETRO 结合一个冻结的 Bert 检索器，一个可微分的编码器和一个分块交叉关注机制，可以基于比通常在训练期间消耗的数据量高一个数量级的数据预测 token，并在 fine-tuning 后转化为下游的 knowledge-intensive 任务，例如问答等，这一研究为利用显式记忆来提高语言模型的性能开辟了新的途径。

Dec, 2021

我们是否应该使用检索方法预训练自回归语言模型？一项全面研究

通过引入检索机制可以提高大型解码器语言模型的困惑度和生成质量，本文提出了一种可扩展的预训练检索增强语言模型，它在实验证明了在知识密集型任务上优于标准 GPT，未来这可能是预训练自回归 LM 的有前途的方向。

Apr, 2023

使用迭代检索生成协同技术增强检索增强型大型语言模型

本研究提出一种名为 Iter-RetGen 的方法，通过检索和生成的迭代协同作用，以全面地处理检索到的知识并在不受结构约束的情况下实现灵活的生成，而这可以在多跳问答、事实验证和常识推理等任务中实现可比甚至优于现有检索辅助基准的效果，同时减少检索和生成的开销，从而提高了性能。

May, 2023

语言的更多空间：探究检索对语言模型的影响

利用 “理想检索” 方法研究检索增强语言模型，评估检索增强对语言模型行为的影响，观察到这些模型在权重保存方面具有更少的世界知识，在理解局部上下文和词间依赖方面表现更好，但在理解全局上下文方面表现更差。

Apr, 2024

Re2G: 检索、排序、生成

Re2G 利用神经检索和排名策略结合 BART 序列生成器，在零 - shot 填槽、问答、事实核查和对话等任务中取得了相对增益为 9% 至 34% 的较大提升，是目前 KILT 排行榜上最先进的模型。

Jul, 2022

检索有益还是有害？对语言模型检索增强效果的深入研究

通过研究大型语言模型的自身限制以及外部信息检索的有效性，本研究构建了一个新的问答数据集 WiTQA，以探索实体和关系的组合对于信息检索和知识回忆方面的影响，从而提出了一个基于实体和关系频率的自适应检索系统。

Feb, 2024

InstructRetro: 检索增强预训练后的指令调整

通过检索进行预先训练的大型语言模型在困惑度和事实准确性方面表现更好，但现有预先训练的检索增强语言模型的规模仍然受限，因此限制了指导调整和零样本泛化的效果。我们提出了 Retro 48B，这是在指导调整之前预先训练的最大语言模型，通过从 1.2 万亿令牌中检索继续对 43B GPT 模型进行额外的 1000 亿令牌的预训练。Retro 48B 在困惑度方面在很大程度上优于原始的 43B GPT。在 Retro 上进行指导调整后，InstructRetro 在零样本问答任务上明显优于指导调整的 GPT。此外，我们发现可以剔除 InstructRetro 架构中的编码器，直接使用其解码器骨干，同时获得可比较的结果。预先训练与检索使其解码器在问答中更好地融入上下文，为获取更好的 GPT 解码器指明了有希望的方向。

Oct, 2023

自检索的长距离语言建模

本文中，我们提出了一种用于从头开始联合训练检索增强语言模型的架构和训练流程，名为 Retrieval-Pretrained Transformer（RPT），并使用四个长程语言建模任务进行了评估，横跨图书、代码和数学写作，证明了与强基线相比，RPT 改善了整体的检索质量和困惑度。

Jun, 2023

可靠、适应性强、可归因的检索式语言模型

通过在推理过程中引入大规模数据存储，检索增强的语言模型（retrieval-augmented LMs）可以更可靠、适应性更强且更具可追溯性，然而目前在超越知识密集型任务（如问答）以外的领域，检索增强的语言模型尚未被广泛采用，这需要重新考虑数据存储和检索器、改进检索器和语言模型组件之间的交互以及在高效训练和推理方面进行大规模投资。

Mar, 2024

揭示和缓解检索增强的大规模语言模型中的检索器不一致性

综合检索增强的大型语言模型，在研究表明事实性方面较优越，但并不始终优于原始的无检索语言模型。我们的实验揭示了这种例级性能不一致不仅存在于检索增强和无检索语言模型之间，而且在不同的检索器之间也存在。为了理解这一现象，我们对综合检索增强的大型语言模型进行了退化行为研究，并在理论上将其分解为四个类别。根据我们的分解进一步分析表明，知识源的固有差异和读者模型的不可预测的退化对这种不一致性起到了主要贡献。根据我们的分析，我们引入了可训练的综合检索器框架（EoR），该框架可以从不同的知识源自适应地检索，并且可以有效地减少不可预测的读者错误。我们在开放域问题回答方面的实验证明，EoR 显著改善了单个检索器的 RALM 的性能，并大幅减少了不一致的行为。

May, 2024