在线自适应语言模型与分摊背景的记忆
通过元学习的方法,提出了一种称为 Context-aware Meta-learned Loss Scaling (CaMeLS) 的在线微调算法,可以显著提高大语言模型对文本知识的保留能力。
May, 2023
通过上下文压缩和领域内参数高效微调,我们提出了一种解决大型语言模型处理长篇内容的挑战的新方法,使得 LLM 能够创建原始上下文的简洁表示,并有效地检索相关信息以准确回答问题。我们介绍了 LLoCO,一种通过使用 LoRA 组合上下文压缩、检索和参数高效微调的技术,将 4k 个令牌的 LLaMA2-7B 模型的有效上下文窗口扩展到处理高达 128k 个令牌。在几个长上下文问答数据集上对我们的方法进行评估,结果显示 LLoCO 在推理过程中使用 $30 imes$ 更少的令牌,显著优于上下文学习,实现了高达 $7.62 imes$ 的加速,大大降低了长文档问答的成本,为高效处理长上下文提供了有希望的解决方案。我们的代码公开可用于该 https URL。
Apr, 2024
在人工智能领域,大型语言模型(LLM)代理通过自然语言提示来执行任务,消除了显式重新训练或精调的需要,尤其是在诸如常识问题和是 / 否查询等固定答案任务中。然而,将上下文学习应用于开放性挑战,例如诗歌创作,由于提供的示例的全面性和代理的理解问题内容的能力存在显著限制,导致输出与预期结果经常不一致。为了解决这一差距,我们的研究引入了用于 LLM 多代理的记忆共享(MS)框架,该框架利用实时内存存储和检索系统增强上下文学习过程。该系统中的每个 “记忆” 都捕捉了 LLM 代理提出的查询以及相应的实时响应,将来自各种相似代理的这些记忆聚合到所有代理共享的记忆池中。该框架不仅帮助代理识别特定任务的最相关示例,而且通过其他代理应用未来的记忆评估其潜在效用。对涉及代理特定功能的三个不同领域进行的实证验证表明,MS 框架显著提高了代理在开放性问题上的性能。此外,我们还讨论了在 MS 中哪种类型的记忆池和检索策略可以更好地帮助代理,并提供了 MS 的未来发展方向。代码和数据可在此 https URL 获取。
Apr, 2024
通过引入关联记忆模块,在不需要重新训练的情况下,使得任何预训练(固定)基于注意力的大型语言模型能够处理任意长的输入序列,从而在长文本建模中实现了显著的困惑度降低。
Feb, 2024
Transformer-based language models are limited by a fixed window size, but this paper proposes L2MAC, a memory-augmented stored-program automatic computer that can generate long and consistent code surpassing the limitations of the context window, fulfilling complex user-specified requirements.
Oct, 2023
本研究旨在通过使用闪存将模型参数存储在 DRAM 之外,以满足超过 DRAM 容量的大型语言模型(LLMs)的高效运行需求。本文提出了两种主要技术,即通过重新使用已激活的神经元来减少数据传输的 “窗口化” 与利用闪存的顺序数据访问能力来增加数据块大小的 “行列捆绑”。这些方法使得模型能够在可用 DRAM 容量的两倍大小的情况下运行,并在与传统加载方法相比,CPU 和 GPU 分别实现 4-5 倍和 20-25 倍的推理速度提升。本研究通过结合稀疏感知、上下文自适应加载和面向硬件的设计,为在内存有限的设备上进行有效的 LLMs 推理铺平了道路。
Dec, 2023
本文提出一种在在线场景(如 ChatGPT)中用于 Transformer 语言模型的新型上下文压缩方法,将不断扩展的上下文压缩到紧凑的记忆空间中,并通过轻量级条件 LoRA 在推理过程中实现对压缩上下文记忆的操作,从而减小内存和注意力操作,实现与完整上下文模型相当的性能,但所需上下文内存空间仅为原来的五分之一。
Dec, 2023
通过将外部语料库的相关文档与大型语言模型(LLM)集成,检索增强语言建模(RALM)是一种已被证明的方法,可以让 LLM 生成超出其预训练语料库范围的信息。本文提出了 FlashBack,一种模块化的 RALM,通过在上下文末尾附加检索到的文档来提高 RALM 的推理效率,同时在特定的微调后保持良好的性能,而不会严重破坏 LLM 的知识完整性。
May, 2024
MEMORYLLM 是一个自我更新且具有信息记忆能力的模型,它通过在 transformer 的潜在空间中引入固定大小的内存池,能够有效地整合新知识并保持长期信息记录能力,同时维持操作性完整性。
Feb, 2024