FlashBack: 长文本推理的高效检索增强语言建模

May, 2024

FlashBack: 长文本推理的高效检索增强语言建模

FlashBack:Efficient Retrieval-Augmented Language Modeling for Long Context Inference

Runheng Liu, Xingchen Xiao, Heyan Huang, Zewen Chi, Zhijing Wu

TL;DR通过将外部语料库的相关文档与大型语言模型（LLM）集成，检索增强语言建模（RALM）是一种已被证明的方法，可以让 LLM 生成超出其预训练语料库范围的信息。本文提出了 FlashBack，一种模块化的 RALM，通过在上下文末尾附加检索到的文档来提高 RALM 的推理效率，同时在特定的微调后保持良好的性能，而不会严重破坏 LLM 的知识完整性。

Abstract

retrieval-augmented language modeling (ralm) by integrating large language models (LLM) with relevant documents from an external corpus is a proven method for enabling the LLM to generate information beyond the s

retrieval-augmented language modeling ralm large language models inference efficiency flashback

发现论文，激发创造

上下文检索增强的语言模型

该论文提出了一种名为 In-Context RALM 的新方法，将基础语料库中的相关文档作为输入前缀添加到语言模型中，实现对外部信息的整合而无需改变模型结构，并证实其在各种场景下的性能提升，从而增加了语言模型的普适性。

Jan, 2023

提升检索增强语言模型对无关背景的鲁棒性

使用检索增强语言模型 (Retrieval-augmented language models, RALMs) 在处理特定应用场景问题时，检索到的信息能够提高模型的性能，并且不会损害性能。该研究分析了五个开放领域问答基准，并提出了两种方法以减轻性能下降问题。

Oct, 2023

检索与推理相遇：长文本理解的动态上下文编辑

通过动态上下文编辑的方式，我们引入了一种新的方法，将信息检索重新设想，使长文本上下文成为可塑的外部知识，并通过与最新的知识编辑技术相结合，与有关信息进行交互式收集和整合，从而使大型语言模型能够进行复杂的推理步骤，有效增强了推理能力。

Jun, 2024

LLM 闪电般的运算：利用有限内存高效推理的大型语言模型

本研究旨在通过使用闪存将模型参数存储在 DRAM 之外，以满足超过 DRAM 容量的大型语言模型（LLMs）的高效运行需求。本文提出了两种主要技术，即通过重新使用已激活的神经元来减少数据传输的 “窗口化” 与利用闪存的顺序数据访问能力来增加数据块大小的 “行列捆绑”。这些方法使得模型能够在可用 DRAM 容量的两倍大小的情况下运行，并在与传统加载方法相比，CPU 和 GPU 分别实现 4-5 倍和 20-25 倍的推理速度提升。本研究通过结合稀疏感知、上下文自适应加载和面向硬件的设计，为在内存有限的设备上进行有效的 LLMs 推理铺平了道路。

Dec, 2023

增强语言模型的长期记忆

提出了一种名为 LongMem 的框架，该框架通过引入长期记忆机制，使得语言模型能够利用历史上下文信息，从而使得模型在文本生成等任务中取得了优异效果。

Jun, 2023

检索与长上下文大语言模型的融合

通过研究使用两种最先进的预训练大型语言模型进行检索增强和长上下文窗口的解决方案，我们发现使用简单的检索增强在生成时可以实现与微调后的具有 16K 上下文窗口通过位置插值在长上下文任务上具有可比性能的 4K 上下文窗口的大型语言模型，而计算量较小。此外，我们证明检索可以显著提高大型语言模型的性能，而不受其扩展上下文窗口大小的限制。我们的最佳模型，检索增强的 32K 上下文窗口的 LLaMA2-70B，在 7 个长上下文任务中，包括问答和基于查询的摘要，的平均得分方面优于 GPT-3.5-turbo-16k 和 Davinci003。它还在生成速度上优于其非检索的 LLaMA2-70B-32k 基线。我们的研究为从业者提供了关于选择检索增强与扩展大型语言模型的长上下文的一般见解。

Oct, 2023

检索重构：大规模语言模型推理

本文提出了一种名为 'rethinking with retrieval' (RR) 的后置处理方法，借助 'chain-of-thought' (CoT) 提示中的分解推理步骤检索相关的外部知识，从而改善大语言模型在常识推理、时间推理和表格推理等方面的性能。

Dec, 2022

在线自适应语言模型与分摊背景的记忆

大型语言模型的在线适应性方案，通过压缩与提取新文档中的信息，并存储在记忆库中，实现知识保留、问答和适应性，以提高效率和性能。

Mar, 2024

长上下文语言模型是否能包含检索、RAG、SQL 等功能？

基于长上下文语言模型（LCLMs）的 LOFT 基准评估了 LCLMs 在上下文检索和推理方面的性能，发现它们能与最先进的检索系统和 RAG 系统媲美，但在像 SQL 一样需要组合推理的领域仍存在挑战，提示着需要继续研究随着上下文长度增长时的提示策略的影响。LOFT 为 LCLMs 提供了严格的测试平台，展示了随着模型能力的扩展，它们取代现有范式并解决新任务的潜力。

Jun, 2024

无法记住长文档的细节？您需要一些修整与休息

通过两种新型的基于提示的方法 reprompting 和 in-context retrieval（ICR）相结合的方式，提出 R&D-- 一种改进长文档中问题回答（QA）效果的方法。在实验证明，使用 R&R 可以提高 QA 准确性。

Mar, 2024