在线自适应语言模型与分摊背景的记忆

Mar, 2024

在线自适应语言模型与分摊背景的记忆

Online Adaptation of Language Models with a Memory of Amortized Contexts

Jihoon Tack, Jaehyung Kim, Eric Mitchell, Jinwoo Shin, Yee Whye Teh...

TL;DR大型语言模型的在线适应性方案，通过压缩与提取新文档中的信息，并存储在记忆库中，实现知识保留、问答和适应性，以提高效率和性能。

Abstract

Due to the rapid generation and dissemination of information, large language models (LLMs) quickly run out of date despite enormous development costs. Due to this crucial need to keep models updated, online learning has emerged as a critical necessity when utilizing LLMs for real-world

large language models online learning knowledge retention amortized feature extraction meta-learning

发现论文，激发创造

增强语言模型的长期记忆

提出了一种名为 LongMem 的框架，该框架通过引入长期记忆机制，使得语言模型能够利用历史上下文信息，从而使得模型在文本生成等任务中取得了优异效果。

Jun, 2023

语言模型的元学习在线适应

通过元学习的方法，提出了一种称为 Context-aware Meta-learned Loss Scaling (CaMeLS) 的在线微调算法，可以显著提高大语言模型对文本知识的保留能力。

May, 2023

LLoCO：离线学习长上下文

通过上下文压缩和领域内参数高效微调，我们提出了一种解决大型语言模型处理长篇内容的挑战的新方法，使得 LLM 能够创建原始上下文的简洁表示，并有效地检索相关信息以准确回答问题。我们介绍了 LLoCO，一种通过使用 LoRA 组合上下文压缩、检索和参数高效微调的技术，将 4k 个令牌的 LLaMA2-7B 模型的有效上下文窗口扩展到处理高达 128k 个令牌。在几个长上下文问答数据集上对我们的方法进行评估，结果显示 LLoCO 在推理过程中使用 $30 imes$ 更少的令牌，显著优于上下文学习，实现了高达 $7.62 imes$ 的加速，大大降低了长文档问答的成本，为高效处理长上下文提供了有希望的解决方案。我们的代码公开可用于该 https URL。

Apr, 2024

基于大型语言模型的智能体的记忆共享

在人工智能领域，大型语言模型（LLM）代理通过自然语言提示来执行任务，消除了显式重新训练或精调的需要，尤其是在诸如常识问题和是 / 否查询等固定答案任务中。然而，将上下文学习应用于开放性挑战，例如诗歌创作，由于提供的示例的全面性和代理的理解问题内容的能力存在显著限制，导致输出与预期结果经常不一致。为了解决这一差距，我们的研究引入了用于 LLM 多代理的记忆共享（MS）框架，该框架利用实时内存存储和检索系统增强上下文学习过程。该系统中的每个 “记忆” 都捕捉了 LLM 代理提出的查询以及相应的实时响应，将来自各种相似代理的这些记忆聚合到所有代理共享的记忆池中。该框架不仅帮助代理识别特定任务的最相关示例，而且通过其他代理应用未来的记忆评估其潜在效用。对涉及代理特定功能的三个不同领域进行的实证验证表明，MS 框架显著提高了代理在开放性问题上的性能。此外，我们还讨论了在 MS 中哪种类型的记忆池和检索策略可以更好地帮助代理，并提供了 MS 的未来发展方向。代码和数据可在此 https URL 获取。

Apr, 2024

CAMELoT：针对不需要训练的集成联想存储的大型语言模型

通过引入关联记忆模块，在不需要重新训练的情况下，使得任何预训练（固定）基于注意力的大型语言模型能够处理任意长的输入序列，从而在长文本建模中实现了显著的困惑度降低。

Feb, 2024

L2MAC：大型语言模型自动计算机无限编码生成

Transformer-based language models are limited by a fixed window size, but this paper proposes L2MAC, a memory-augmented stored-program automatic computer that can generate long and consistent code surpassing the limitations of the context window, fulfilling complex user-specified requirements.

Oct, 2023

LLM 闪电般的运算：利用有限内存高效推理的大型语言模型

本研究旨在通过使用闪存将模型参数存储在 DRAM 之外，以满足超过 DRAM 容量的大型语言模型（LLMs）的高效运行需求。本文提出了两种主要技术，即通过重新使用已激活的神经元来减少数据传输的 “窗口化” 与利用闪存的顺序数据访问能力来增加数据块大小的 “行列捆绑”。这些方法使得模型能够在可用 DRAM 容量的两倍大小的情况下运行，并在与传统加载方法相比，CPU 和 GPU 分别实现 4-5 倍和 20-25 倍的推理速度提升。本研究通过结合稀疏感知、上下文自适应加载和面向硬件的设计，为在内存有限的设备上进行有效的 LLMs 推理铺平了道路。

Dec, 2023

在线语言模型交互的压缩上下文记忆

本文提出一种在在线场景（如 ChatGPT）中用于 Transformer 语言模型的新型上下文压缩方法，将不断扩展的上下文压缩到紧凑的记忆空间中，并通过轻量级条件 LoRA 在推理过程中实现对压缩上下文记忆的操作，从而减小内存和注意力操作，实现与完整上下文模型相当的性能，但所需上下文内存空间仅为原来的五分之一。

Dec, 2023

FlashBack: 长文本推理的高效检索增强语言建模

通过将外部语料库的相关文档与大型语言模型（LLM）集成，检索增强语言建模（RALM）是一种已被证明的方法，可以让 LLM 生成超出其预训练语料库范围的信息。本文提出了 FlashBack，一种模块化的 RALM，通过在上下文末尾附加检索到的文档来提高 RALM 的推理效率，同时在特定的微调后保持良好的性能，而不会严重破坏 LLM 的知识完整性。

May, 2024

MEMORYLLM: 迈向自我可更新的大型语言模型

MEMORYLLM 是一个自我更新且具有信息记忆能力的模型，它通过在 transformer 的潜在空间中引入固定大小的内存池，能够有效地整合新知识并保持长期信息记录能力，同时维持操作性完整性。

Feb, 2024